Press ESC to close

Or check our Popular Categories...

言語

22   Articles
22
T

TACL. 形式意味論的保証を緩和した条件下でのベンチマーク言語理解

自然言語処理ベンチマークの問題を解くには、条件、手続き、例外などを正しく扱うことが必要となる。従来の考え方では、自然言語の文の意味を形式言語により表現し、証明としてタスクの解を求めることが目指されてきた。しかし、今日のタスクでは、暗黙の前提や外部知識も必要となり、完全な意味表現を大規模に構築することは、実用上困難である。一方で、LLMやCoTなどの解き方では、解を得る推論過程を厳密に検査・分析することができない。  本研究では、この問いに対して、自然言語のタスクをプログラムに変換して解くことを提案する。自然言語のテキストの中には、プログラムに変換して実行可能な表現が埋まっており、それらを本研究ではcomputablesと呼ぶ。computables はプログラムであるため、タスクの結果に対して、それをどのように解いたのかの明確な根拠を与える。本研究ではプログラム変換に、事前知識をRAGとして組み合わせて computables を生成し、それを反復的に改良する。  数学的推論、多段階推論、因果推論、ならびに規則や例外を多く含む法律・バイオメディカル分野のベンチマークにおいて、本手法は、テキストのみの推論および単発のコード実行を一貫して上回る性能を示した。さらに、得られたcomputables を吟味することで、自然言語にどのようなプログラム断片が埋まっているのか、その複雑さを検証することができる。本研究はベンチマークを解く上で必要となる条件や例外を実行可能な形式として明示化することで、証明志向の意味論と純粋なテキスト推論との間をつなぐ実用的な橋渡しを実現している。 参考文献 Haoyang Chen and Kumiko Tanaka-Ishii. Understanding Benchmark Language Under Weakened Formal Semantics. Transactions of the Association for…

A

ACL 2026  重複列が明らかにする大規模言語モデルと自然言語の差

本研究は、テキスト中の重複部分列に基づき、自然言語とLLMの差を考えるものである。長さm重複の数Dmは、高次 Rényi エントロピーと解析的に関連付けることができる。高次エントロピーを利用した解析結果では、人間の文書では、重複の情報量の、重複長mに対する増大は非常に遅く、事前情報に入念な参照構造を打ち立てて文書が進む性質を持っていることが浮き彫りになる。一方、LLMが生成するテキストでは、情報量の増大は人間のそれよりも速い。LLMの生成メカニズムがこの差を生み出している可能性があることが論じられている。 参考文献 Kumiko Tanaka-Ishii. Repeated Sequences Reveal Gaps between Large Language Models and Natural Language. Accepted to the 64th Annual Meeting of the…

D

DH 2026. 陶磁器作品のための検索拡張型記述生成:ミュージアム・メタデータによる知識強化の有効性

ChatGPT などの大規模言語モデル(LLM)は、メタデータ作成、意味的情報の拡充、作品キャプション生成といった文化遺産分野のタスクにおいて、ますます広く利用されている。これらのタスクは、整理・管理されたメタデータに大きく依存するため、AI が生成した記述を評価するとともに、人手で整備されたメタデータが生成記述の質をどのように高めるのかを理解することが重要である。 本研究では、デジタル・ヒューマニティーズ(DH)の文脈において、陶磁器作品の記述を自動生成する手法を提案する。陶磁器は、絵画のような平面的な作品に比べて三次元的で記述が難しい一方、形状が比較的単純であるため生成品質の基本的な評価に適している。また、歴史的に広く用いられてきた資料でありながら、記録が不完全な場合も多いことから、記述生成の対象として重要である。 本研究では、11,566 件からなるオープンアクセスの Rijksmuseum データセットを用い、LLM(ChatGPT)と、類似作品を検索してそのメタデータを利用する RAG 強化型 LLM である TerraLex を比較する。実験の結果、RAG を用いた手法は、誤りが少なく、より正確で文脈情報を豊富に含む記述を生成し、人間の評価者からも一貫して高く評価された。これらの結果は、記述生成における RAG の有効性と、完全で高品質な人手によるメタデータの重要性を示している。TerraLex は、目録作成、様式比較、解釈に用いられる作品記述の完全性と明瞭性を高めることで、人文学研究を支援する。また、陶磁器資料に関する分かりやすい説明を提供することで、教育や一般向けの理解促進にも貢献する。本研究の新規性は、主として提案するワークフローと、メタデータ生成において実証されたその効果にある。 参考文献 Kaoru Shimabayashi and Kumiko Tanaka-Ishii. Retrieval-Augmented…

I

ICML 2026. 幾何学的制御による LLM 生成におけるモード崩壊からの脱却

モード崩壊は、生成モデリングにおける継続的な課題であり、自己回帰的なテキスト生成においては、明示的なループから、多様性の段階的な喪失、さらには生成軌道の早期収束に至るまで、さまざまな形で現れる。本研究では、力学系の観点からこの現象を捉え直し、モード崩壊を、幾何学的崩壊によって状態空間の到達可能性が低下する現象として再解釈する。すなわち、生成の過程で、モデルの内部軌道が表現空間内の低次元領域に閉じ込められていくという見方である。 この見方は、モード崩壊が単なるトークンレベルの現象ではなく、記号的制約や確率のみに基づくデコーディング・ヒューリスティックだけでは安定的に解決できないことを示唆している。この観点に基づき、本研究では Reinforced Mode Regulation(RMR)を提案する。RMR は、Transformer の value cache における支配的な自己強化方向を制御する、軽量かつオンラインな状態空間介入手法であり、低ランク減衰として実装される。複数の大規模言語モデルを用いた実験において、RMR はモード崩壊を大幅に抑制し、標準的なデコーディングでは通常 2.0 nats/step 付近で崩壊が生じるのに対し、0.8 nats/step という極めて低いエントロピー率でも、安定した高品質な生成を可能にすることを示した。 参考文献 Du, X., and Tanaka-Ishii, K. Escaping Mode Collapse…

126

大規模言語モデル(LLM)は自然言語生成において顕著な進歩を遂げている一方で、パープレキシティが低い場合であっても、反復や文のちぐはぐさといった不可解な挙動を依然として示す。このことは、局所的な予測精度を重視するあまり長距離の構造的複雑さを見落としてしまうという、従来の評価指標の本質的な限界を浮き彫りにしている。本研究では、自己相似性を測るフラクタル幾何学的な尺度である「相関次元」を導入し、言語モデルの観点から知覚されるテキストの認識論的複雑さを定量化する。この指標は、言語の階層的な再帰構造を捉えることで、局所的および大域的な性質を統一的な枠組みのもとで橋渡しする役割を果たす。大規模な実験を通じて、相関次元が (1) 事前学習過程における3つの異なるフェーズを明らかにし、(2) 文脈依存的な複雑さを反映し、(3) モデルのハルシネーション傾向を示唆し、さらに (4) 生成テキストに現れる複数のデジェネレーション形態を高い信頼性で検出できることを示す。我々の手法は計算効率に優れ、4ビット精度までのモデル量子化に対しても頑健であり、Transformer や Mamba をはじめとする広範な自回帰アーキテクチャに適用可能である。また、LLM の生成ダイナミクスに対して新たな洞察を提供する。 参考文献 Du, X., & Tanaka-Ishii, K. Correlation Dimension of Autoregressive Large Language Models. In The…

207

語の出現頻度と語義数のあいだには冪乗則が成り立つことをZipfが報告しており、「Zipf の意味頻度則」として知られます。これはいわゆるZipf則とは別の法則です。従来、語義数は辞書中の意味の数で計測されていましたが、すると、辞書に登録のない単語について、意味頻度則を調べることができません。本研究では、言語モデル(LM)から得られる単語ベクトルのばらつきを計測し、それと頻度の間に冪乗則が成り立つことを示しました。この冪乗則は、ある程度大きな言語モデルでないと観測されないことも報告しています。甲南大学・永田亮先生と共同研究の成果です。 参考文献 Nagata, R., & Tanaka-Ishii, K. (2025, July). A New Formulation of Zipf’s Meaning-Frequency Law through Contextual Diversity. In Proceedings of the 63rd…

185

クラスタリングは、機械学習やデータマイニングにおける基本的な技術であり、現実世界における自己組織化パターンを理解するための強力な手段です。 その本質は情報理論的であり、ドキュメント集合に対して「いくつクラスタが存在し、各ドキュメントはどのクラスタに属するか」という最も単純な仮説を立て、それに基づいて情報の損失を最小化することにあります。 しかしこの10年間で、情報理論的な観点に基づかないクラスタリング手法が主流となってきました。ドキュメントを単語の出現確率分布として表す代わりに、BERTのような強力な言語モデルによって密なベクトルとして表現する手法が一般化したためです。これらの埋め込みベースの手法は効果的ですが、自然な確率的解釈が難しく、情報理論の視点は次第に薄れていきました。 本研究では、生成言語モデルを活用することで、この古典的な情報理論的アプローチを再興します。 特に、Doc2Queryモデルを用いて、各ドキュメントを「生成されるテキストの確率分布」として表現します。この生成空間は離散かつ無限ですが、正則化付き重要サンプリング(Regularized Importance Sampling) により、その分布とKLダイバージェンスを高精度に推定します。 つまり、私たちの手法はクラスタリングと統計推定を一体として行います。実験では、4つの標準的なクラスタリングデータセットにおいて、従来の埋め込みベースの強力な手法を大きく上回る性能を達成しました。 参考文献

355

ニュース記事と株価履歴を用い、株式のベクトル表現(Stock Embedding)を機械学習により獲得します。このベクトル表現は、金融予測モデルにおいて、財の計算表現として用いることができるものですが、ほかにも数多くの応用が考えられます。たとえば、複数の株に投資する際、その比率を最適に決めるポートフォリオ最適化のために用いることができます。米国市場のデータを用いると、ニュース記事から得た株ベクトル表現を用いると、従来の株価データのみを使用する方法に比べて2.8倍の利益が得られます。ロンドン、東京、上海市場などでも、株ベクトル表現を用いたポートフォリオで、利益が増大することが実証されています。 参考文献

243

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

280

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。 参考文献