Press ESC to close

Or check our Popular Categories...

自然言語処理

4   Articles
4
7

情報理論の視点から生成的文書検索(GDR)を再考し、文書 x∈X が索引 t∈T によって索引付けされ、ニューラル自己回帰モデルがクエリ Q を T にマッピングするように訓練されます。GDRは、文書 X からクエリ Q への情報伝達と見なすことができ、索引 T を介してより多くのビットを伝送する必要があります。シャノンのレート歪み理論を適用することにより、相互情報量の観点から索引の最適性を分析でき、GDRにおけるボトルネックとして索引 T の設計を考慮することができます。…

135

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、 その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、 いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、 過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、 稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。 研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。 参考文献

39

「_月_日_時より_スタート!」「regard _ as _」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、深層学習で実装し、SNSからのパターン抽出など応用を考えています。 参考文献

117

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。 試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと類比する性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。 参考文献