Entropy. 記号の時系列のエントロピーレート

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。

参考文献

Ryosuke Takahira, Kumiko Tanaka-Ishii, and Łukasz Dębowski. Entropy Rate Estimates for Natural Language—A New Extrapolation of Compressed Large-Scale Corpora. Entropy, 2016. [paper]
Geng Ren, Shuntaro Takahashi, Kumiko Tanaka-Ishii. Entropy Rate Estimation for English via a Large Cognitive Experiment Using Mechanical Turk. Entropy, 2019. [paper]

Categorized in:

複雑系言語

Tagged in:

エントロピーレート, プログラム言語, 新聞, 時系列, 計算言語学, 音楽

Entropy. 記号の時系列のエントロピーレート

参考文献

Leave a Reply Cancel reply

Other Stories

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2024 Oral. 情報ボトルネック最小な文書索引

Physical Review Research 2024. 自然言語の相関次元を測る

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

ACL 2018. 言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

ACL 2020. 株の埋め込み表現

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

参考文献

Leave a Reply Cancel reply

Related Articles

Other Stories

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響