機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと類比する性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。 参考文献
複雑系としての自然言語の数理と機械学習
自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。
複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。
言語の複雑系科学
- 言語の数理的性質
- 言語の非定常性特性、長期記憶の計測
- 言語の系のスケーリング則
- 言語の複雑さの量の計測
機械学習に基づく言語の数理モデル
- 統計的性質を再現する言語の数理モデル
- 埋め込み表現手法
- 文構造の数理
- 長期記憶と生成モデル
- 複雑系の性質を持つ系列の機械学習手法
言語的視点からの社会的複雑系
言語的視点からの社会的複雑系の解析・予測
- 社会的対象の埋め込み表現獲得手法
- 産業文書の複雑系科学と機械学習応用
- 言語データに基づく金融データの深層学習