最先端の自然言語処理ベンチマークでは、条件、手続き、例外を規定する自然言語記述を解釈する能力が求められる。こうした記述は、しばしば暗黙の前提や外部知識にも依存している。しかし、証明論的保証を備えた完全な意味表現を大規模に構築することは、多くの場合、実用上困難である。また、純粋なテキストベースの推論では、推論過程を十分に検査・分析する手段が限られている。本研究では、形式意味論的な保証を弱めた場合に、ベンチマーク言語の理解をどの程度達成できるのかを検討する。 本研究では、この問いに対して、computables と呼ばれる実行可能表現を抽出することでアプローチする。computables は、実行可能性、実行トレース、実行時エラーなどの実行時挙動を通じて、意味的妥当性に関する操作的証拠を提供する表現である。さらに、外部知識からの検索を利用して、各ベンチマーク事例に対応する computables を生成し、反復的に改良する。数学的推論、多段階推論、因果推論、ならびに規則や例外を多く含む法律・バイオメディカル分野のベンチマークにおいて、本手法は、テキストのみの推論および単発のコード実行を一貫して上回る性能を示した。さらに、本研究の分析は、これらの computables が精度向上にとどまらず、スケーラブルかつ検査可能な意味的証拠を提供することを示している。すなわち、ベンチマーク言語が要求する条件や例外を実行可能な形式として明示化することで、証明志向の意味論と純粋なテキスト推論との間をつなぐ実用的な橋渡しを実現している。 参考文献 Haoyang Chen and Kumiko Tanaka-Ishii. Understanding Benchmark Language Under Weakened Formal Semantics. Transactions of the Association…
複雑系としての自然言語の数理と機械学習
自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。
複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。

言語の複雑系科学・数理的性質
- 言語の非定常特性・長期記憶の計測
- 言語の系のスケーリング則
- 言語の複雑さの計測
- 文書・文構造の数理
機械学習に基づく言語の数理モデル
- 言語の統計的性質を再現する数理モデル
- 埋め込み表現手法
- 長期記憶と生成モデル
- 複雑系の性質を持つ系列の機械学習手法
- 言語モデルと文書検索の融合
言語的視点からの社会的複雑系の工学
- 社会的対象の埋め込み表現獲得手法
- 法律の複雑系科学と機械学習応用
- 言語データに基づく金融データの深層学習
- 推論に基づく言語対象の工学