AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

195

クラスタリングは、機械学習やデータマイニングにおける基本的な技術であり、現実世界における自己組織化パターンを理解するための強力な手段です。その本質は情報理論的であり、ドキュメント集合に対して「いくつクラスタが存在し、各ドキュメントはどのクラスタに属するか」という最も単純な仮説を立て、それに基づいて情報の損失を最小化することにあります。しかしこの10年間で、情報理論的な観点に基づかないクラスタリング手法が主流となってきました。ドキュメントを単語の出現確率分布として表す代わりに、BERTのような強力な言語モデルによって密なベクトルとして表現する手法が一般化したためです。これらの埋め込みベースの手法は効果的ですが、自然な確率的解釈が難しく、情報理論の視点は次第に薄れていきました。本研究では、生成言語モデルを活用することで、この古典的な情報理論的アプローチを再興します。特に、Doc2Queryモデルを用いて、各ドキュメントを「生成されるテキストの確率分布」として表現します。この生成空間は離散かつ無限ですが、正則化付き重要サンプリング（Regularized Importance Sampling）により、その分布とKLダイバージェンスを高精度に推定します。つまり、私たちの手法はクラスタリングと統計推定を一体として行います。実験では、4つの標準的なクラスタリングデータセットにおいて、従来の埋め込みベースの強力な手法を大きく上回る性能を達成しました。参考文献

機械学習言語

ICML 2024 Oral. 情報ボトルネック最小な文書索引

322

情報理論の視点から生成的文書検索（GDR）を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは Q を T にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。参考文献

Featured 機械学習

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

250

この研究では、実現ボラティリティ（RV）の予測のために、正規化フローを使用した新しい機械学習モデルが提案されています。RVの特性を考慮し、変換と予測モデルを共同でトレーニングする方法が提案され、最大尤度目的関数に基づくトレーニングが行われます。この新しいアプローチは、100銘柄のデータセットにおいて、従来の分析的またはニューラルネットワークに基づく変換方法よりも優れた結果を示しています。参考文献

機械学習金融

ACL 2020. テキストの価格に対する影響

311

2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあります。中でも、メディアの影響は大きく、ニュース報道や、TwitterなどのSNS での真偽入れ混じった情報拡散が大影響を与えています。研究室では、株価や仮想通貨のデータを集積し、ニュースやTwitterが価格変動に与える影響を分析し, 文書の中から価格に影響を与えるであろう情報のマイニングを試みています。参考文献

言語金融

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

321

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。参考文献

Featured 機械学習

J

Journal of Physics Communications 2018. 複雑な時系列の生成モデル

生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、マルコフモデル、文法的モデル、Simon生成過程など既存のモデルに加え、複雑系ネットワーク上のランダムウォーク、AutoencoderやAdversarialなど深層学習生成モデルも含め、複雑系を包括的に再現する試みを行っています。参考文献

機械学習言語

Computational Linguistics, 2019. PLOS One, 2017. 深層学習と冪乗則

240

深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。このような議論は自然言語以外の系、例えば金融市場にも適用することができます。参考文献

機械学習言語

NeurIPS 2022. 非線形な単語埋め込み表現

387

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、多義性など単語の持つ非線形な特性を表現することができません。このため、既存のベクトル表現に代わる数理的な表現を研究しています。試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。参考文献

Featured 機械学習

深層学習

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

ICML 2024 Oral. 情報ボトルネック最小な文書索引

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Journal of Physics Communications 2018. 複雑な時系列の生成モデル

Computational Linguistics, 2019. PLOS One, 2017. 深層学習と冪乗則

NeurIPS 2022. 非線形な単語埋め込み表現

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2024 Oral. 情報ボトルネック最小な文書索引

Physical Review Research 2024. 自然言語の相関次元を測る

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

ACL 2018. 言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

ACL 2026　重複列が明らかにする大規模言語モデルと自然言語の差

DH 2026. 陶磁器作品のための検索拡張型説明文生成：博物館収蔵品データによる知識強化

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

NeurIPS 2025. 自回帰型大規模言語モデルにおける相関次元

ACL 2020. 株の埋め込み表現

ACM ICAIF 2023. ニューラル分布変換でRealized Volatilityを予測

ACL 2020. テキストの価格に対する影響

Knowledge-Based Systems 2022. 極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

深層学習