機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。 試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。

参考文献

  • Xin Du and Kumiko Tanaka-Ishii. Semantic field of words represented as nonlinear functions. Advances in Neural Information Processing Systems (NeurIPS), 2022, 35: 37095-37107. [link]

Categorized in: