自然言語の相関次元を測る

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル
列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。こ
の方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、
統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍
的に約6.5であることがわかりました。この値は単純な離散ランダム列の
それよりも小さく、Barabási-Albert過程のそれよりも大きいです。

参考文献

Xin Du and Kumiko Tanaka-Ishii. Correlation dimension of natural language in a statistical manifold. Physical Review Research 6, L022028, 2024. [link]

Categorized in:

Featured 複雑系言語

Tagged in:

Renyiエントロピー, フラクタル, 相関次元, 言語モデル, 音楽

参考文献

Leave a Reply Cancel reply

Other Stories

ICML 2024 Oral. 情報ボトルネック最小な文書索引

ニューラル分布変換でRealized Volatilityを予測

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

ICML 2024 Oral. 情報ボトルネック最小な文書索引

極端リスクによる金融市場のモデル化

言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

自然言語文のStrahler数

ICML 2024 Oral. 情報ボトルネック最小な文書索引

株の埋め込み表現

ニューラル分布変換でRealized Volatilityを予測

テキストの価格に対する影響

極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

参考文献

Leave a Reply Cancel reply

Related Articles

Other Stories

ICML 2024 Oral. 情報ボトルネック最小な文書索引

ニューラル分布変換でRealized Volatilityを予測