Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。 参考文献
複雑系としての自然言語の数理と機械学習
自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。
複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。
言語の複雑系科学・数理的性質
- 言語の非定常特性・長期記憶の計測
- 言語の系のスケーリング則
- 言語の複雑さの計測
- 文書・文構造の数理
機械学習に基づく言語の数理モデル
- 言語の統計的性質を再現する数理モデル
- 埋め込み表現手法
- 長期記憶と生成モデル
- 複雑系の性質を持つ系列の機械学習手法
- 言語モデルと文書検索の融合
言語的視点からの社会的複雑系の工学
- 社会的対象の埋め込み表現獲得手法
- 法律の複雑系科学と機械学習応用
- 言語データに基づく金融データの深層学習
- 推論に基づく言語対象の工学