語の出現頻度と語義数のあいだには冪乗則が成り立つことをZipfが報告しており、「Zipf の意味頻度則」として知られます。これはいわゆるZipf則とは別の法則です。従来、語義数は辞書中の意味の数で計測されていましたが、すると、辞書に登録のない単語について、意味頻度則を調べることができません。本研究では、言語モデル(LM)から得られる単語ベクトルのばらつきを計測し、それと頻度の間に冪乗則が成り立つことを示しました。この冪乗則は、ある程度大きな言語モデルでないと観測されないことも報告しています。甲南大学・永田亮先生と共同研究の成果です。 参考文献 Nagata, R., & Tanaka-Ishii, K. (2025, July). A New Formulation of Zipf’s Meaning-Frequency Law…
複雑系としての自然言語の数理と機械学習
自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。
複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。
言語の複雑系科学・数理的性質
- 言語の非定常特性・長期記憶の計測
- 言語の系のスケーリング則
- 言語の複雑さの計測
- 文書・文構造の数理
機械学習に基づく言語の数理モデル
- 言語の統計的性質を再現する数理モデル
- 埋め込み表現手法
- 長期記憶と生成モデル
- 複雑系の性質を持つ系列の機械学習手法
- 言語モデルと文書検索の融合
言語的視点からの社会的複雑系の工学
- 社会的対象の埋め込み表現獲得手法
- 法律の複雑系科学と機械学習応用
- 言語データに基づく金融データの深層学習
- 推論に基づく言語対象の工学