自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル
列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。こ
の方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、
統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍
的に約6.5であることがわかりました。この値は単純な離散ランダム列の
それよりも小さく、Barabási-Albert過程のそれよりも大きいです。

参考文献

  • Xin Du and Kumiko Tanaka-Ishii. Correlation dimension of natural language in a statistical manifold. Physical Review Research 6, L022028, 2024.  [link]

Categorized in: