Computational Linguistics 2015. データの特性を表す統計量

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。

参考文献

Kumiko Tanaka-Ishii, Shunsuke Aihara. Computational Constancy Measures of Texts—Yule’s K and Rényi’s Entropy. Computational Linguistics, 2015, 41.3: 481-502. [link]

Categorized in:

複雑系言語

Tagged in:

Renyiエントロピー, Yule's K, スケール則, プログラム言語, 計算言語学, 音楽

Computational Linguistics 2015. データの特性を表す統計量

参考文献

Leave a Reply Cancel reply

Other Stories

ACL 2018. 言語の構造的複雑さの計量

Natural Langauge Engineering 2018. 教師無し穴空き定型表現の抽出

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型記述生成：ミュージアム・メタデータによる知識強化の有効性

ICML 2024 Oral. 情報ボトルネック最小な文書索引

Physical Review Research 2024. 自然言語の相関次元を測る

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

ACL 2018. 言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型記述生成：ミュージアム・メタデータによる知識強化の有効性

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

ACL 2020. 株の埋め込み表現

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

参考文献

Leave a Reply Cancel reply

Related Articles

Other Stories

ACL 2018. 言語の構造的複雑さの計量

Natural Langauge Engineering 2018. 教師無し穴空き定型表現の抽出