
最先端の自然言語処理ベンチマークでは、条件、手続き、例外を規定する自然言語記述を解釈する能力が求められる。こうした記述は、しばしば暗黙の前提や外部知識にも依存している。しかし、証明論的保証を備えた完全な意味表現を大規模に構築することは、多くの場合、実用上困難である。また、純粋なテキストベースの推論では、推論過程を十分に検査・分析する手段が限られている。本研究では、形式意味論的な保証を弱めた場合に、ベンチマーク言語の理解をどの程度達成できるのかを検討する。
本研究では、この問いに対して、computables と呼ばれる実行可能表現を抽出することでアプローチする。computables は、実行可能性、実行トレース、実行時エラーなどの実行時挙動を通じて、意味的妥当性に関する操作的証拠を提供する表現である。さらに、外部知識からの検索を利用して、各ベンチマーク事例に対応する computables を生成し、反復的に改良する。数学的推論、多段階推論、因果推論、ならびに規則や例外を多く含む法律・バイオメディカル分野のベンチマークにおいて、本手法は、テキストのみの推論および単発のコード実行を一貫して上回る性能を示した。さらに、本研究の分析は、これらの computables が精度向上にとどまらず、スケーラブルかつ検査可能な意味的証拠を提供することを示している。すなわち、ベンチマーク言語が要求する条件や例外を実行可能な形式として明示化することで、証明志向の意味論と純粋なテキスト推論との間をつなぐ実用的な橋渡しを実現している。
参考文献
Haoyang Chen and Kumiko Tanaka-Ishii. Understanding Benchmark Language Under Weakened Formal Semantics. Transactions of the Association for Computational Linguistics (TACL), in press, to appear in 2026.