Press ESC to close

Or check our Popular Categories...

Renyiエントロピー

2   Articles
2
7

自然言語の相関次元は、大規模言語モデルによって生成された高次元シーケンスにGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、Fisher-Rao距離を介して統計多様体に再定式化されました。言語は多重フラクタル特性を示し、全体として自己相似性を持ち、普遍的な次元は約6.5で、単純な離散ランダムシーケンスよりも小さく、Barabási-Albert過程よりも大きいです。 参考文献

29

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。 参考文献