NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

67

大規模言語モデル（LLM）は自然言語生成において顕著な進歩を遂げている一方で、パープレキシティが低い場合であっても、反復や文のちぐはぐさといった不可解な挙動を依然として示す。このことは、局所的な予測精度を重視するあまり長距離の構造的複雑さを見落としてしまうという、従来の評価指標の本質的な限界を浮き彫りにしている。本研究では、自己相似性を測るフラクタル幾何学的な尺度である「相関次元」を導入し、言語モデルの観点から知覚されるテキストの認識論的複雑さを定量化する。この指標は、言語の階層的な再帰構造を捉えることで、局所的および大域的な性質を統一的な枠組みのもとで橋渡しする役割を果たす。大規模な実験を通じて、相関次元が (1) 事前学習過程における3つの異なるフェーズを明らかにし、(2) 文脈依存的な複雑さを反映し、(3) モデルのハルシネーション傾向を示唆し、さらに (4) 生成テキストに現れる複数のデジェネレーション形態を高い信頼性で検出できることを示す。我々の手法は計算効率に優れ、4ビット精度までのモデル量子化に対しても頑健であり、Transformer や Mamba をはじめとする広範な自回帰アーキテクチャに適用可能である。また、LLM の生成ダイナミクスに対して新たな洞察を提供する。参考文献 Du, X., & Tanaka-Ishii, K….

機械学習言語

🏆ACL 2025 Outstanding Paper Award. Zipfの意味ー頻度則の新しい定式化

155

語の出現頻度と語義数のあいだには冪乗則が成り立つことをZipfが報告しており、「Zipf の意味頻度則」として知られます。これはいわゆるZipf則とは別の法則です。従来、語義数は辞書中の意味の数で計測されていましたが、すると、辞書に登録のない単語について、意味頻度則を調べることができません。本研究では、言語モデル（LM）から得られる単語ベクトルのばらつきを計測し、それと頻度の間に冪乗則が成り立つことを示しました。この冪乗則は、ある程度大きな言語モデルでないと観測されないことも報告しています。甲南大学・永田亮先生と共同研究の成果です。参考文献 Nagata, R., & Tanaka-Ishii, K. (2025, July). A New Formulation of Zipf’s Meaning-Frequency Law…

機械学習言語

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

157

クラスタリングは、機械学習やデータマイニングにおける基本的な技術であり、現実世界における自己組織化パターンを理解するための強力な手段です。その本質は情報理論的であり、ドキュメント集合に対して「いくつクラスタが存在し、各ドキュメントはどのクラスタに属するか」という最も単純な仮説を立て、それに基づいて情報の損失を最小化することにあります。しかしこの10年間で、情報理論的な観点に基づかないクラスタリング手法が主流となってきました。ドキュメントを単語の出現確率分布として表す代わりに、BERTのような強力な言語モデルによって密なベクトルとして表現する手法が一般化したためです。これらの埋め込みベースの手法は効果的ですが、自然な確率的解釈が難しく、情報理論の視点は次第に薄れていきました。本研究では、生成言語モデルを活用することで、この古典的な情報理論的アプローチを再興します。特に、Doc2Queryモデルを用いて、各ドキュメントを「生成されるテキストの確率分布」として表現します。この生成空間は離散かつ無限ですが、正則化付き重要サンプリング（Regularized Importance Sampling）により、その分布とKLダイバージェンスを高精度に推定します。つまり、私たちの手法はクラスタリングと統計推定を一体として行います。実験では、4つの標準的なクラスタリングデータセットにおいて、従来の埋め込みベースの強力な手法を大きく上回る性能を達成しました。参考文献

機械学習言語

ICML 2024 Oral. 情報ボトルネック最小な文書索引

295

情報理論の視点から生成的文書検索（GDR）を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは Q を T にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。参考文献

Featured 機械学習

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

217

この研究では、実現ボラティリティ（RV）の予測のために、正規化フローを使用した新しい機械学習モデルが提案されています。RVの特性を考慮し、変換と予測モデルを共同でトレーニングする方法が提案され、最大尤度目的関数に基づくトレーニングが行われます。この新しいアプローチは、100銘柄のデータセットにおいて、従来の分析的またはニューラルネットワークに基づく変換方法よりも優れた結果を示しています。参考文献

機械学習金融

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

304

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。参考文献

Featured 機械学習

Natural Langauge Engineering 2018. 教師無し穴空き定型表現の抽出

111

「＿月＿日＿時より＿スタート！」「regard ＿ as ＿」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、深層学習で実装し、SNSからのパターン抽出など応用を考えています。参考文献

機械学習言語

J

Journal of Physics Communications 2018. 複雑な時系列の生成モデル

生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、マルコフモデル、文法的モデル、Simon生成過程など既存のモデルに加え、複雑系ネットワーク上のランダムウォーク、AutoencoderやAdversarialなど深層学習生成モデルも含め、複雑系を包括的に再現する試みを行っています。参考文献

機械学習言語

Computational Linguistics, 2019. PLOS One, 2017. 深層学習と冪乗則

209

深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。このような議論は自然言語以外の系、例えば金融市場にも適用することができます。参考文献

機械学習言語

NeurIPS 2022. 非線形な単語埋め込み表現

356

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、多義性など単語の持つ非線形な特性を表現することができません。このため、既存のベクトル表現に代わる数理的な表現を研究しています。試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。参考文献

Featured 機械学習

機械学習

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

🏆ACL 2025 Outstanding Paper Award. Zipfの意味ー頻度則の新しい定式化

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

ICML 2024 Oral. 情報ボトルネック最小な文書索引

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Natural Langauge Engineering 2018. 教師無し穴空き定型表現の抽出

Journal of Physics Communications 2018. 複雑な時系列の生成モデル

Computational Linguistics, 2019. PLOS One, 2017. 深層学習と冪乗則

NeurIPS 2022. 非線形な単語埋め込み表現

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

🏆ACL 2025 Outstanding Paper Award. Zipfの意味ー頻度則の新しい定式化

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

ICML 2024 Oral. 情報ボトルネック最小な文書索引

Physical Review Research 2024. 自然言語の相関次元を測る

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

ACL 2018. 言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

🏆ACL 2025 Outstanding Paper Award. Zipfの意味ー頻度則の新しい定式化

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

ACL 2020. 株の埋め込み表現

『推論』と言語の複雑さ

ACL 2020. 株の埋め込み表現

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

機械学習