情報理論の視点から生成的文書検索(GDR)を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは QT にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。

参考文献

  • Xin Du, Lixin Xiu, and Kumiko Tanaka-Ishii. Bottleneck-minimal indexing for generative document retrieval. In Proceedings of The Forty-first International Conference on Machine Learning (ICML). Vienna, Austria, 2024. [site]

Categorized in: