情報理論の視点から生成的文書検索(GDR)を再考し、文書 x∈X が索引 t∈T によって索引付けされ、ニューラル自己回帰モデルがクエリ QT にマッピングするように訓練されます。GDRは、文書 X からクエリ Q への情報伝達と見なすことができ、索引 T を介してより多くのビットを伝送する必要があります。シャノンのレート歪み理論を適用することにより、相互情報量の観点から索引の最適性を分析でき、GDRにおけるボトルネックとして索引 T の設計を考慮することができます。

参考文献

  • Xin Du, Lixin Xiu, and Kumiko Tanaka-Ishii. Bottleneck-minimal indexing for generative document retrieval. In Proceedings of The Forty-first International Conference on Machine Learning (ICML). Vienna, Austria, 2024. [site]

Categorized in: