自然言語の相関次元は、大規模言語モデルによって生成された高次元シーケンスにGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、Fisher-Rao距離を介して統計多様体に再定式化されました。言語は多重フラクタル特性を示し、全体として自己相似性を持ち、普遍的な次元は約6.5で、単純な離散ランダムシーケンスよりも小さく、Barabási-Albert過程よりも大きいです。

参考文献

  • Xin Du and Kumiko Tanaka-Ishii. Correlation dimension of natural language in a statistical manifold. Physical Review Research 6, L022028, 2024.  [link]

Categorized in: