Press ESC to close

Or check our Popular Categories...

複雑系としての自然言語の数理と機械学習

自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。

複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。

図書1図書2

­

言語の複雑系科学・数理的性質

  • 言語の非定常特性・長期記憶の計測
  • 言語の系のスケーリング則
  • 言語の複雑さの計測
  • 文書・文構造の数理
機械学習に基づく言語の数理モデル

  • 言語の統計的性質を再現する数理モデル
  • 埋め込み表現手法
  • 長期記憶と生成モデル
  • 複雑系の性質を持つ系列の機械学習手法
  • 言語モデルと文書検索の融合
言語的視点からの社会的複雑系の工学

  • 社会的対象の埋め込み表現獲得手法
  • 法律の複雑系科学と機械学習応用
  • 言語データに基づく金融データの深層学習
  • 推論に基づく言語対象の工学
T

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

最先端の自然言語処理ベンチマークでは、条件、手続き、例外を規定する自然言語記述を解釈する能力が求められる。こうした記述は、しばしば暗黙の前提や外部知識にも依存している。しかし、証明論的保証を備えた完全な意味表現を大規模に構築することは、多くの場合、実用上困難である。また、純粋なテキストベースの推論では、推論過程を十分に検査・分析する手段が限られている。本研究では、形式意味論的な保証を弱めた場合に、ベンチマーク言語の理解をどの程度達成できるのかを検討する。 本研究では、この問いに対して、computables と呼ばれる実行可能表現を抽出することでアプローチする。computables は、実行可能性、実行トレース、実行時エラーなどの実行時挙動を通じて、意味的妥当性に関する操作的証拠を提供する表現である。さらに、外部知識からの検索を利用して、各ベンチマーク事例に対応する computables を生成し、反復的に改良する。数学的推論、多段階推論、因果推論、ならびに規則や例外を多く含む法律・バイオメディカル分野のベンチマークにおいて、本手法は、テキストのみの推論および単発のコード実行を一貫して上回る性能を示した。さらに、本研究の分析は、これらの computables が精度向上にとどまらず、スケーラブルかつ検査可能な意味的証拠を提供することを示している。すなわち、ベンチマーク言語が要求する条件や例外を実行可能な形式として明示化することで、証明志向の意味論と純粋なテキスト推論との間をつなぐ実用的な橋渡しを実現している。 参考文献 Haoyang Chen and Kumiko Tanaka-Ishii. Understanding Benchmark Language Under Weakened Formal Semantics. Transactions of the Association…

A

ACL 2026. 繰り返し部分系列が明らかにする大規模言語モデルと自然言語の隔たり

大規模言語モデル(LLM)が、局所的な流暢性を超えて自然言語の構造をどの程度捉えているのかを評価することは、依然として未解決の課題である。既存の評価手法は、主としてタスク性能や短い文脈における挙動に基づいており、生成テキストの長距離にわたる統計的構造については限られた知見しか与えない。本研究では、繰り返し部分系列に基づく補完的な評価枠組みを提案する。部分系列の分布を複数のスケールで分析し、それを高次 Rényi エントロピーと関連づけることで、有限長の条件下において、テキストが既に確立された構造をどのように再利用しているのかを調べる。 人間が書いたテキストと、長さを揃えた GPT 生成テキストを用いた実験により、冪乗則モデルは限定されたブロック長の範囲を記述できる一方で、観測されるエントロピー成長は、しばしば対数冪型の形式によって同等またはより適切に特徴づけられることが示された。複数のデータセットにわたり、自然言語は、個々のテキスト間にばらつきがあるにもかかわらず、観測可能な範囲で安定したエントロピー成長パターンと一貫した平均的挙動を示す。これに対して、GPT 生成テキストでは、モデルサイズに応じて推定指数に体系的かつ統計的に有意な変化が見られた。これらの結果は、繰り返し部分系列に基づくエントロピーが、長距離構造における体系的な差異を明らかにする定量的な構造診断指標であり、表面的な流暢性を超えて、自然言語と最先端の LLM 出力を区別できることを示している。 参考文献 Kumiko Tanaka-Ishii. Repeated Sequences Reveal Gaps between Large Language Models and Natural Language. Accepted to…

D

DH 2026. 陶磁器作品のための検索拡張型記述生成:ミュージアム・メタデータによる知識強化の有効性

ChatGPT などの大規模言語モデル(LLM)は、メタデータ作成、意味的情報の拡充、作品キャプション生成といった文化遺産分野のタスクにおいて、ますます広く利用されている。これらのタスクは、整理・管理されたメタデータに大きく依存するため、AI が生成した記述を評価するとともに、人手で整備されたメタデータが生成記述の質をどのように高めるのかを理解することが重要である。 本研究では、デジタル・ヒューマニティーズ(DH)の文脈において、陶磁器作品の記述を自動生成する手法を提案する。陶磁器は、絵画のような平面的な作品に比べて三次元的で記述が難しい一方、形状が比較的単純であるため生成品質の基本的な評価に適している。また、歴史的に広く用いられてきた資料でありながら、記録が不完全な場合も多いことから、記述生成の対象として重要である。 本研究では、11,566 件からなるオープンアクセスの Rijksmuseum データセットを用い、LLM(ChatGPT)と、類似作品を検索してそのメタデータを利用する RAG 強化型 LLM である TerraLex を比較する。実験の結果、RAG を用いた手法は、誤りが少なく、より正確で文脈情報を豊富に含む記述を生成し、人間の評価者からも一貫して高く評価された。これらの結果は、記述生成における RAG の有効性と、完全で高品質な人手によるメタデータの重要性を示している。TerraLex は、目録作成、様式比較、解釈に用いられる作品記述の完全性と明瞭性を高めることで、人文学研究を支援する。また、陶磁器資料に関する分かりやすい説明を提供することで、教育や一般向けの理解促進にも貢献する。本研究の新規性は、主として提案するワークフローと、メタデータ生成において実証されたその効果にある。 参考文献 Kaoru Shimabayashi and Kumiko Tanaka-Ishii. Retrieval-Augmented…

I

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

モード崩壊は、生成モデリングにおける継続的な課題であり、自己回帰的なテキスト生成においては、明示的なループから、多様性の段階的な喪失、さらには生成軌道の早期収束に至るまで、さまざまな形で現れる。本研究では、力学系の観点からこの現象を捉え直し、モード崩壊を、幾何学的崩壊によって状態空間の到達可能性が低下する現象として再解釈する。すなわち、生成の過程で、モデルの内部軌道が表現空間内の低次元領域に閉じ込められていくという見方である。 この見方は、モード崩壊が単なるトークンレベルの現象ではなく、記号的制約や確率のみに基づくデコーディング・ヒューリスティックだけでは安定的に解決できないことを示唆している。この観点に基づき、本研究では Reinforced Mode Regulation(RMR)を提案する。RMR は、Transformer の value cache における支配的な自己強化方向を制御する、軽量かつオンラインな状態空間介入手法であり、低ランク減衰として実装される。複数の大規模言語モデルを用いた実験において、RMR はモード崩壊を大幅に抑制し、標準的なデコーディングでは通常 2.0 nats/step 付近で崩壊が生じるのに対し、0.8 nats/step という極めて低いエントロピー率でも、安定した高品質な生成を可能にすることを示した。 参考文献 Du, X., and Tanaka-Ishii, K. Escaping Mode Collapse…

125

大規模言語モデル(LLM)は自然言語生成において顕著な進歩を遂げている一方で、パープレキシティが低い場合であっても、反復や文のちぐはぐさといった不可解な挙動を依然として示す。このことは、局所的な予測精度を重視するあまり長距離の構造的複雑さを見落としてしまうという、従来の評価指標の本質的な限界を浮き彫りにしている。本研究では、自己相似性を測るフラクタル幾何学的な尺度である「相関次元」を導入し、言語モデルの観点から知覚されるテキストの認識論的複雑さを定量化する。この指標は、言語の階層的な再帰構造を捉えることで、局所的および大域的な性質を統一的な枠組みのもとで橋渡しする役割を果たす。大規模な実験を通じて、相関次元が (1) 事前学習過程における3つの異なるフェーズを明らかにし、(2) 文脈依存的な複雑さを反映し、(3) モデルのハルシネーション傾向を示唆し、さらに (4) 生成テキストに現れる複数のデジェネレーション形態を高い信頼性で検出できることを示す。我々の手法は計算効率に優れ、4ビット精度までのモデル量子化に対しても頑健であり、Transformer や Mamba をはじめとする広範な自回帰アーキテクチャに適用可能である。また、LLM の生成ダイナミクスに対して新たな洞察を提供する。 参考文献 Du, X., & Tanaka-Ishii, K. Correlation Dimension of Autoregressive Large Language Models. In The…

207

語の出現頻度と語義数のあいだには冪乗則が成り立つことをZipfが報告しており、「Zipf の意味頻度則」として知られます。これはいわゆるZipf則とは別の法則です。従来、語義数は辞書中の意味の数で計測されていましたが、すると、辞書に登録のない単語について、意味頻度則を調べることができません。本研究では、言語モデル(LM)から得られる単語ベクトルのばらつきを計測し、それと頻度の間に冪乗則が成り立つことを示しました。この冪乗則は、ある程度大きな言語モデルでないと観測されないことも報告しています。甲南大学・永田亮先生と共同研究の成果です。 参考文献 Nagata, R., & Tanaka-Ishii, K. (2025, July). A New Formulation of Zipf’s Meaning-Frequency Law through Contextual Diversity. In Proceedings of the 63rd…

184

クラスタリングは、機械学習やデータマイニングにおける基本的な技術であり、現実世界における自己組織化パターンを理解するための強力な手段です。 その本質は情報理論的であり、ドキュメント集合に対して「いくつクラスタが存在し、各ドキュメントはどのクラスタに属するか」という最も単純な仮説を立て、それに基づいて情報の損失を最小化することにあります。 しかしこの10年間で、情報理論的な観点に基づかないクラスタリング手法が主流となってきました。ドキュメントを単語の出現確率分布として表す代わりに、BERTのような強力な言語モデルによって密なベクトルとして表現する手法が一般化したためです。これらの埋め込みベースの手法は効果的ですが、自然な確率的解釈が難しく、情報理論の視点は次第に薄れていきました。 本研究では、生成言語モデルを活用することで、この古典的な情報理論的アプローチを再興します。 特に、Doc2Queryモデルを用いて、各ドキュメントを「生成されるテキストの確率分布」として表現します。この生成空間は離散かつ無限ですが、正則化付き重要サンプリング(Regularized Importance Sampling) により、その分布とKLダイバージェンスを高精度に推定します。 つまり、私たちの手法はクラスタリングと統計推定を一体として行います。実験では、4つの標準的なクラスタリングデータセットにおいて、従来の埋め込みベースの強力な手法を大きく上回る性能を達成しました。 参考文献

280

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。 参考文献

311

情報理論の視点から生成的文書検索(GDR)を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは Q を T にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。 参考文献

385

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍的に約6.5であることがわかりました。この値は単純な離散ランダム列のそれよりも小さく、Barabási-Albert過程のそれよりも大きいです。 参考文献

373

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。 試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。 参考文献

354

ニュース記事と株価履歴を用い、株式のベクトル表現(Stock Embedding)を機械学習により獲得します。このベクトル表現は、金融予測モデルにおいて、財の計算表現として用いることができるものですが、ほかにも数多くの応用が考えられます。たとえば、複数の株に投資する際、その比率を最適に決めるポートフォリオ最適化のために用いることができます。米国市場のデータを用いると、ニュース記事から得た株ベクトル表現を用いると、従来の株価データのみを使用する方法に比べて2.8倍の利益が得られます。ロンドン、東京、上海市場などでも、株ベクトル表現を用いたポートフォリオで、利益が増大することが実証されています。 参考文献

243

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

232

この研究では、実現ボラティリティ(RV)の予測のために、正規化フローを使用した新しい機械学習モデルが提案されています。RVの特性を考慮し、変換と予測モデルを共同でトレーニングする方法が提案され、最大尤度目的関数に基づくトレーニングが行われます。この新しいアプローチは、100銘柄のデータセットにおいて、従来の分析的またはニューラルネットワークに基づく変換方法よりも優れた結果を示しています。 参考文献

319

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、 人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。 参考文献

303

2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあり ます。中でも、メディアの影響は大きく、ニュース報道や、TwitterなどのSNS での真偽入れ混じった情報拡散が大影響を与えています。 研究室では、株価や仮想通貨のデータを集積し、ニュースやTwitterが価格変動に与える影響を分析し, 文書の中から価格に影響を与えるであろう情報のマイニングを試みています。 参考文献

314

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、 その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、 いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、 過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、 稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。 研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。 参考文献

212

複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、下図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。 参考文献

328

大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか? また、歴史に残る名作は、Wikipediaに比べてどうでしょうか? 言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、 書き換えルールの制約によって言語が階層的に捉えられます。 研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、 構造の複雑さを計量する方法を探求しています。  参考文献

169

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。 参考文献

125

「_月_日_時より_スタート!」「regard _ as _」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、深層学習で実装し、SNSからのパターン抽出など応用を考えています。 参考文献

J

Journal of Physics Communications 2018. 複雑な時系列の生成モデル

生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、マルコフモデル、文法的モデル、Simon生成過程など既存のモデルに加え、複雑系ネットワーク上のランダムウォーク、AutoencoderやAdversarialなど深層学習生成モデルも含め、複雑系を包括的に再現する試みを行っています。 参考文献

221

深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。 複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。 研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、 従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。 たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。 このような議論は自然言語以外の系、例えば金融市場にも適用することができます。 参考文献