![](https://ja.ml-waseda.jp/wp-content/uploads/2024/05/Key-image.png)
自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル
列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。こ
の方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、
統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍
的に約6.5であることがわかりました。この値は単純な離散ランダム列の
それよりも小さく、Barabási-Albert過程のそれよりも大きいです。
![](https://ja.ml-waseda.jp/wp-content/uploads/2024/05/xandp-1024x613.png)
![](https://ja.ml-waseda.jp/wp-content/uploads/2024/05/phi-1024x529.png)
![](https://ja.ml-waseda.jp/wp-content/uploads/2024/05/language-1.jpg)
![](https://ja.ml-waseda.jp/wp-content/uploads/2024/05/modelsize-1024x804.png)
![](https://ja.ml-waseda.jp/wp-content/uploads/2024/05/domain-1024x457.jpg)
参考文献
- Xin Du and Kumiko Tanaka-Ishii. Correlation dimension of natural language in a statistical manifold. Physical Review Research 6, L022028, 2024. [link]