『推論』と言語の複雑さ

252

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

推論法律

JSTAT 2023. 自然言語文のStrahler数

294

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。参考文献

複雑系言語

Physical Review Research 2024. 自然言語の相関次元を測る

401

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍的に約6.5であることがわかりました。この値は単純な離散ランダム列のそれよりも小さく、Barabási-Albert過程のそれよりも大きいです。参考文献

Featured 複雑系

Entropy. 記号の時系列のエントロピーレート

334

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。参考文献

複雑系言語

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

320

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。参考文献

Featured 機械学習

PLOS One 2016. 長相関・ゆらぎ解析

224

複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、下図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。参考文献

複雑系言語

ACL 2018. 言語の構造的複雑さの計量

337

大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか？また、歴史に残る名作は、Wikipediaに比べてどうでしょうか？言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、書き換えルールの制約によって言語が階層的に捉えられます。研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、構造の複雑さを計量する方法を探求しています。参考文献

Featured 複雑系

Computational Linguistics 2015. データの特性を表す統計量

181

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。参考文献

複雑系言語

複雑系

『推論』と言語の複雑さ

JSTAT 2023. 自然言語文のStrahler数

Physical Review Research 2024. 自然言語の相関次元を測る

Entropy. 記号の時系列のエントロピーレート

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

PLOS One 2016. 長相関・ゆらぎ解析

ACL 2018. 言語の構造的複雑さの計量

Computational Linguistics 2015. データの特性を表す統計量

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2024 Oral. 情報ボトルネック最小な文書索引

Physical Review Research 2024. 自然言語の相関次元を測る

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

ACL 2018. 言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

ACL 2020. 株の埋め込み表現

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

複雑系