複雑系としての自然言語の数理と機械学習

自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。

複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。

図書1 図書2

言語の複雑系科学・数理的性質

言語の非定常特性・長期記憶の計測
言語の系のスケーリング則
言語の複雑さの計測
文書・文構造の数理

機械学習に基づく言語の数理モデル

言語の統計的性質を再現する数理モデル
埋め込み表現手法
長期記憶と生成モデル
複雑系の性質を持つ系列の機械学習手法
言語モデルと文書検索の融合

言語的視点からの社会的複雑系の工学

社会的対象の埋め込み表現獲得手法
法律の複雑系科学と機械学習応用
言語データに基づく金融データの深層学習
推論に基づく言語対象の工学

言語

16 Articles

機械学習

8 Articles

複雑系

8 Articles

金融

4 Articles

法律

1 Articles

推論

1 Articles

AAAI 2025. 生成言語モデルによる情報理論的クラスタリングの再興

クラスタリングは、機械学習やデータマイニングにおける基本的な技術であり、現実世界における自己組織化パターンを理解するための強力な手段です。その本質は情報理論的であり、ドキュメント集合に対して「いくつクラスタが存在し、各ドキュメントはどのクラスタに属するか」という最も単純な仮説を立て、それに基づいて情報の損失を最小化することにあります。しかしこの10年間で、情報理論的な観点に基づかないクラスタリング手法が主流となってきました。ドキュメントを単語の出現確率分布として表す代わりに、BERTのような強力な言語モデルによって密なベクトルとして表現する手法が一般化したためです。これらの埋め込みベースの手法は効果的ですが、自然な確率的解釈が難しく、情報理論の視点は次第に薄れていきました。本研究では、生成言語モデルを活用することで、この古典的な情報理論的アプローチを再興します。特に、Doc2Queryモデルを用いて、各ドキュメントを「生成されるテキストの確率分布」として表現します。この生成空間は離散かつ無限ですが、正則化付き重要サンプリング（Regularized Importance Sampling）により、その分布とKLダイバージェンスを高精度に推定します。つまり、私たちの手法はクラスタリングと統計推定を一体として行います。実験では、4つの標準的なクラスタリングデータセットにおいて、従来の埋め込みベースの強力な手法を大きく上回る性能を達成しました。参考文献

機械学習言語

自然言語文のStrahler数

209

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。参考文献

複雑系言語

ICML 2024 Oral. 情報ボトルネック最小な文書索引

231

情報理論の視点から生成的文書検索（GDR）を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは Q を T にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。参考文献

Featured 機械学習

自然言語の相関次元を測る

210

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍的に約6.5であることがわかりました。この値は単純な離散ランダム列のそれよりも小さく、Barabási-Albert過程のそれよりも大きいです。参考文献

Featured 複雑系

NeurIPS 2022. 非線形な単語埋め込み表現

275

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、多義性など単語の持つ非線形な特性を表現することができません。このため、既存のベクトル表現に代わる数理的な表現を研究しています。試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。参考文献

Featured 機械学習

株の埋め込み表現

197

ニュース記事と株価履歴を用い、株式のベクトル表現(Stock Embedding)を機械学習により獲得します。このベクトル表現は、金融予測モデルにおいて、財の計算表現として用いることができるものですが、ほかにも数多くの応用が考えられます。たとえば、複数の株に投資する際、その比率を最適に決めるポートフォリオ最適化のために用いることができます。米国市場のデータを用いると、ニュース記事から得た株ベクトル表現を用いると、従来の株価データのみを使用する方法に比べて2.8倍の利益が得られます。ロンドン、東京、上海市場などでも、株ベクトル表現を用いたポートフォリオで、利益が増大することが実証されています。参考文献

言語金融

『推論』と言語の複雑さ

159

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

推論法律

ニューラル分布変換でRealized Volatilityを予測

131

この研究では、実現ボラティリティ（RV）の予測のために、正規化フローを使用した新しい機械学習モデルが提案されています。RVの特性を考慮し、変換と予測モデルを共同でトレーニングする方法が提案され、最大尤度目的関数に基づくトレーニングが行われます。この新しいアプローチは、100銘柄のデータセットにおいて、従来の分析的またはニューラルネットワークに基づく変換方法よりも優れた結果を示しています。参考文献

機械学習金融

記号の時系列のエントロピーレート

227

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。参考文献

複雑系言語

テキストの価格に対する影響

242

2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあります。中でも、メディアの影響は大きく、ニュース報道や、TwitterなどのSNS での真偽入れ混じった情報拡散が大影響を与えています。研究室では、株価や仮想通貨のデータを集積し、ニュースやTwitterが価格変動に与える影響を分析し, 文書の中から価格に影響を与えるであろう情報のマイニングを試みています。参考文献

言語金融

極端リスクによる金融市場のモデル化

237

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。参考文献

Featured 機械学習

長相関・ゆらぎ解析

155

複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、下図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。参考文献

複雑系言語

言語の構造的複雑さの計量

223

大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか？また、歴史に残る名作は、Wikipediaに比べてどうでしょうか？言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、書き換えルールの制約によって言語が階層的に捉えられます。研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、構造の複雑さを計量する方法を探求しています。参考文献

Featured 複雑系

データの特性を表す統計量

101

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。参考文献

複雑系言語

教師無し穴空き定型表現の抽出

「＿月＿日＿時より＿スタート！」「regard ＿ as ＿」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、深層学習で実装し、SNSからのパターン抽出など応用を考えています。参考文献

機械学習言語

複

複雑な時系列の生成モデル

生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、マルコフモデル、文法的モデル、Simon生成過程など既存のモデルに加え、複雑系ネットワーク上のランダムウォーク、AutoencoderやAdversarialなど深層学習生成モデルも含め、複雑系を包括的に再現する試みを行っています。参考文献

機械学習言語

深層学習と冪乗則

159

深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。このような議論は自然言語以外の系、例えば金融市場にも適用することができます。参考文献

機械学習言語

Page 1 of 1

Press ESC to close

Or check our Popular Categories...

複雑系としての自然言語の数理と機械学習

言語の複雑系科学・数理的性質

機械学習に基づく言語の数理モデル

言語的視点からの社会的複雑系の工学

言語

機械学習

複雑系

金融

法律

推論