大規模言語モデル(LLM)が、局所的な流暢性を超えて自然言語の構造をどの程度捉えているのかを評価することは、依然として未解決の課題である。既存の評価手法は、主としてタスク性能や短い文脈における挙動に基づいており、生成テキストの長距離にわたる統計的構造については限られた知見しか与えない。本研究では、繰り返し部分系列に基づく補完的な評価枠組みを提案する。部分系列の分布を複数のスケールで分析し、それを高次 Rényi エントロピーと関連づけることで、有限長の条件下において、テキストが既に確立された構造をどのように再利用しているのかを調べる。

人間が書いたテキストと、長さを揃えた GPT 生成テキストを用いた実験により、冪乗則モデルは限定されたブロック長の範囲を記述できる一方で、観測されるエントロピー成長は、しばしば対数冪型の形式によって同等またはより適切に特徴づけられることが示された。複数のデータセットにわたり、自然言語は、個々のテキスト間にばらつきがあるにもかかわらず、観測可能な範囲で安定したエントロピー成長パターンと一貫した平均的挙動を示す。これに対して、GPT 生成テキストでは、モデルサイズに応じて推定指数に体系的かつ統計的に有意な変化が見られた。これらの結果は、繰り返し部分系列に基づくエントロピーが、長距離構造における体系的な差異を明らかにする定量的な構造診断指標であり、表面的な流暢性を超えて、自然言語と最先端の LLM 出力を区別できることを示している。

参考文献

Kumiko Tanaka-Ishii. Repeated Sequences Reveal Gaps between Large Language Models and Natural Language. Accepted to the 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026), to appear in July 2026.

Categorized in: