自然言語処理ベンチマークの問題を解くには、条件、手続き、例外などを正しく扱うことが必要となる。従来の考え方では、自然言語の文の意味を形式言語により表現し、証明としてタスクの解を求めることが目指されてきた。しかし、今日のタスクでは、暗黙の前提や外部知識も必要となり、完全な意味表現を大規模に構築することは、実用上困難である。一方で、LLMやCoTなどの解き方では、解を得る推論過程を厳密に検査・分析することができない。

 本研究では、この問いに対して、自然言語のタスクをプログラムに変換して解くことを提案する。自然言語のテキストを、プログラムに変換して実行可能な表現を抽出し、事前知識をRAGとして組み合わせて反復的に改良する。

 数学的推論、多段階推論、因果推論、ならびに規則や例外を多く含む法律・バイオメディカル分野のベンチマークにおいて、本手法は、テキストのみの推論および単発のコード実行を一貫して上回る性能を示した。本研究はベンチマークを解く上で必要となる条件や例外を実行可能な形式として明示化することで、証明志向の意味論と純粋なテキスト推論との間をつなぐ実用的な橋渡しを実現している。

参考文献

Haoyang Chen and Kumiko Tanaka-Ishii. Understanding Benchmark Language Under Weakened Formal Semantics. Transactions of the Association for Computational Linguistics (TACL), in press, to appear in 2026.

Categorized in: