AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

48

クラスタリングは、機械学習やデータマイニングにおける基本的な技術であり、現実世界における自己組織化パターンを理解するための強力な手段です。その本質は情報理論的であり、ドキュメント集合に対して「いくつクラスタが存在し、各ドキュメントはどのクラスタに属するか」という最も単純な仮説を立て、それに基づいて情報の損失を最小化することにあります。しかしこの10年間で、情報理論的な観点に基づかないクラスタリング手法が主流となってきました。ドキュメントを単語の出現確率分布として表す代わりに、BERTのような強力な言語モデルによって密なベクトルとして表現する手法が一般化したためです。これらの埋め込みベースの手法は効果的ですが、自然な確率的解釈が難しく、情報理論の視点は次第に薄れていきました。本研究では、生成言語モデルを活用することで、この古典的な情報理論的アプローチを再興します。特に、Doc2Queryモデルを用いて、各ドキュメントを「生成されるテキストの確率分布」として表現します。この生成空間は離散かつ無限ですが、正則化付き重要サンプリング（Regularized Importance Sampling）により、その分布とKLダイバージェンスを高精度に推定します。つまり、私たちの手法はクラスタリングと統計推定を一体として行います。実験では、4つの標準的なクラスタリングデータセットにおいて、従来の埋め込みベースの強力な手法を大きく上回る性能を達成しました。参考文献

機械学習言語

株の埋め込み表現

201

ニュース記事と株価履歴を用い、株式のベクトル表現(Stock Embedding)を機械学習により獲得します。このベクトル表現は、金融予測モデルにおいて、財の計算表現として用いることができるものですが、ほかにも数多くの応用が考えられます。たとえば、複数の株に投資する際、その比率を最適に決めるポートフォリオ最適化のために用いることができます。米国市場のデータを用いると、ニュース記事から得た株ベクトル表現を用いると、従来の株価データのみを使用する方法に比べて2.8倍の利益が得られます。ロンドン、東京、上海市場などでも、株ベクトル表現を用いたポートフォリオで、利益が増大することが実証されています。参考文献

言語金融

『推論』と言語の複雑さ

165

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

推論法律

自然言語文のStrahler数

211

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。参考文献

複雑系言語

ICML 2024 Oral. 情報ボトルネック最小な文書索引

232

情報理論の視点から生成的文書検索（GDR）を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは Q を T にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。参考文献

Featured 機械学習

自然言語の相関次元を測る

211

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍的に約6.5であることがわかりました。この値は単純な離散ランダム列のそれよりも小さく、Barabási-Albert過程のそれよりも大きいです。参考文献

Featured 複雑系

記号の時系列のエントロピーレート

228

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。参考文献

複雑系言語

テキストの価格に対する影響

244

2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあります。中でも、メディアの影響は大きく、ニュース報道や、TwitterなどのSNS での真偽入れ混じった情報拡散が大影響を与えています。研究室では、株価や仮想通貨のデータを集積し、ニュースやTwitterが価格変動に与える影響を分析し, 文書の中から価格に影響を与えるであろう情報のマイニングを試みています。参考文献

言語金融

極端リスクによる金融市場のモデル化

239

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。参考文献

Featured 機械学習

長相関・ゆらぎ解析

156

複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、下図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。参考文献

複雑系言語

言語

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

自然言語文のStrahler数

ICML 2024 Oral. 情報ボトルネック最小な文書索引

自然言語の相関次元を測る

記号の時系列のエントロピーレート

テキストの価格に対する影響

極端リスクによる金融市場のモデル化

長相関・ゆらぎ解析

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

ICML 2024 Oral. 情報ボトルネック最小な文書索引

自然言語の相関次元を測る

極端リスクによる金融市場のモデル化

言語の構造的複雑さの計量

NeurIPS 2022. 非線形な単語埋め込み表現

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

株の埋め込み表現

『推論』と言語の複雑さ

自然言語文のStrahler数

ICML 2024 Oral. 情報ボトルネック最小な文書索引

株の埋め込み表現

ニューラル分布変換でRealized Volatilityを予測

テキストの価格に対する影響

極端リスクによる金融市場のモデル化

Press ESC to close

Or check our Popular Categories...

言語