『推論』と言語の複雑さ

168

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

推論法律

自然言語文のStrahler数

214

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。参考文献

複雑系言語

自然言語の相関次元を測る

220

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍的に約6.5であることがわかりました。この値は単純な離散ランダム列のそれよりも小さく、Barabási-Albert過程のそれよりも大きいです。参考文献

Featured 複雑系

記号の時系列のエントロピーレート

231

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。参考文献

複雑系言語

極端リスクによる金融市場のモデル化

242

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。参考文献

Featured 機械学習

長相関・ゆらぎ解析

157

複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、下図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。参考文献

複雑系言語

言語の構造的複雑さの計量

236

大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか？また、歴史に残る名作は、Wikipediaに比べてどうでしょうか？言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、書き換えルールの制約によって言語が階層的に捉えられます。研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、構造の複雑さを計量する方法を探求しています。参考文献

Featured 複雑系

データの特性を表す統計量

101

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。参考文献

複雑系言語

複雑系

『推論』と言語の複雑さ

自然言語文のStrahler数

自然言語の相関次元を測る

記号の時系列のエントロピーレート

極端リスクによる金融市場のモデル化

長相関・ゆらぎ解析

言語の構造的複雑さの計量

データの特性を表す統計量

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

ICML 2024 Oral. 情報ボトルネック最小な文書索引

自然言語の相関次元を測る

極端リスクによる金融市場のモデル化

言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

自然言語文のStrahler数

ICML 2024 Oral. 情報ボトルネック最小な文書索引

株の埋め込み表現

ニューラル分布変換でRealized Volatilityを予測

テキストの価格に対する影響

極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

複雑系