Press ESC to close

Or check our Popular Categories...

Featured

5   Articles
5
7

情報理論の視点から生成的文書検索(GDR)を再考し、文書 x∈X が索引 t∈T によって索引付けされ、ニューラル自己回帰モデルがクエリ Q を T にマッピングするように訓練されます。GDRは、文書 X からクエリ Q への情報伝達と見なすことができ、索引 T を介してより多くのビットを伝送する必要があります。シャノンのレート歪み理論を適用することにより、相互情報量の観点から索引の最適性を分析でき、GDRにおけるボトルネックとして索引 T の設計を考慮することができます。…

7

自然言語の相関次元は、大規模言語モデルによって生成された高次元シーケンスにGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、Fisher-Rao距離を介して統計多様体に再定式化されました。言語は多重フラクタル特性を示し、全体として自己相似性を持ち、普遍的な次元は約6.5で、単純な離散ランダムシーケンスよりも小さく、Barabási-Albert過程よりも大きいです。 参考文献

135

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、 その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、 いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、 過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、 稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。 研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。 参考文献

98

大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか? また、歴史に残る名作は、Wikipediaに比べてどうでしょうか? 言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、 書き換えルールの制約によって言語が階層的に捉えられます。 研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、 構造の複雑さを計量する方法を探求しています。  参考文献

117

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。 試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと類比する性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。 参考文献