深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。 複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。 研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、 従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。 たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。 このような議論は自然言語以外の系、例えば金融市場にも適用することができます。 参考文献
言語
22 Articles
22
機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。 試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。 参考文献