ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

本研究は、テキスト中の重複部分列に基づき、自然言語とLLMの差を考えるものである。長さm重複の数Dmは、高次 Rényi エントロピーと解析的に関連付けることができる。高次エントロピーを利用した解析結果では、人間の文書では、重複の情報量の、重複長mに対する増大は非常に遅く、事前情報に入念な参照構造を打ち立てて文書が進む性質を持っていることが浮き彫りになる。一方、LLMが生成するテキストでは、情報量の増大は人間のそれよりも速い。LLMの生成メカニズムがこの差を生み出している可能性があることが論じられている。

参考文献

Kumiko Tanaka-Ishii. Repeated Sequences Reveal Gaps between Large Language Models and Natural Language. Accepted to the 64th Annual Meeting of the Association for Computational Linguistics (ACL 2026), to appear in July 2026.

Categorized in:

機械学習言語

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

参考文献

Leave a Reply Cancel reply

Other Stories

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

ICML 2024 Oral. 情報ボトルネック最小な文書索引

Physical Review Research 2024. 自然言語の相関次元を測る

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

ACL 2018. 言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

🏆ACL 2025 Outstanding Paper Award. Zipfの意味ー頻度則の新しい定式化

ACL 2020. 株の埋め込み表現

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

参考文献

Leave a Reply Cancel reply

Related Articles

Other Stories

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化