Press ESC to close

Or check our Popular Categories...

複雑系としての自然言語の数理と機械学習

自然言語を複雑系と捉え、言語データに内在する大域的性質ならびにその言語構造との関係を、フラクタルやカオスの視点から基礎的に研究しています。言語の数理構造をふまえ、言語の数理モデルを構築し、自然言語処理に応用しています。

複雑系としての言語の大域的特性は、金融やコミュニケーションネットワークなど社会的複雑系に共通する性質でもあります。この共通性を生かし、社会的複雑系の大規模な解析や予測を、言語的な視点から行っています。

図書1図書2

­

言語の複雑系科学・数理的性質

  • 言語の非定常特性・長期記憶の計測
  • 言語の系のスケーリング則
  • 言語の複雑さの計測
  • 文書・文構造の数理
機械学習に基づく言語の数理モデル

  • 言語の統計的性質を再現する数理モデル
  • 埋め込み表現手法
  • 長期記憶と生成モデル
  • 複雑系の性質を持つ系列の機械学習手法
  • 言語モデルと文書検索の融合
言語的視点からの社会的複雑系の工学

  • 社会的対象の埋め込み表現獲得手法
  • 法律の複雑系科学と機械学習応用
  • 言語データに基づく金融データの深層学習
  • 推論に基づく言語対象の工学
131

Strahler数はもともと川の分岐の複雑さを特徴付けるために提案され、計算木などに応用されてきました。この研究では、Strahler数を自然言語の文の木構造の複雑さを計測するために適用しました。自然言語の文のStrahler数の上限と下限が、3から4になることがわかりました。この数は、文を処理する際に必要なメモリ領域の数を示し、文の長さに応じて対数的に増加するものです。 参考文献

156

情報理論の視点から生成的文書検索(GDR)を再考し、新しい文書の索引を提案しています。文書をx∈X 、索引をt∈T 、検索クエリq∈Qとする時、GDRでは Q を T にマッピングするようにニューラルネットワークを訓練します。GDRは、文書 X からクエリ Q へ、索引 T を介して、より多くのビットを伝送する系とみなすことができます。シャノンのレート歪み理論を適用することにより、GDRにおける情報伝達ボトルネックを小さくする索引 T を設計することができます。 参考文献

128

自然言語の相関次元は、大規模言語モデルによって生成された高次元ベクトル列にGrassberger-Procacciaアルゴリズムを適用することで測定されます。この方法は、以前はユークリッド空間でのみ研究されていましたが、本研究では、統計多様体上にFisher-Rao距離を用いて再定式化しました。相関次元は、普遍的に約6.5であることがわかりました。この値は単純な離散ランダム列のそれよりも小さく、Barabási-Albert過程のそれよりも大きいです。 参考文献

201

機械学習では単語など文書の要素をベクトルとして表現しなければならず、それを埋め込み表現といいます。 現在の埋め込み表現は、線形ベクトル空間の中に単語をベクトルとして表現しますが、線形空間では、 多義性など単語の持つ非線形な特性を表現することができません。 このため、既存のベクトル表現に代わる数理的な表現を研究しています。 試みとして、FIRE という関数に基づく表現を構築しました。FIREはBERTと同等の性能を有し、単語の意味の数の推定することにおいては、BERTよりも優れている埋め込み表現です。 参考文献

83

ニュース記事と株価履歴を用い、株式のベクトル表現(Stock Embedding)を機械学習により獲得します。このベクトル表現は、金融予測モデルにおいて、財の計算表現として用いることができるものですが、ほかにも数多くの応用が考えられます。たとえば、複数の株に投資する際、その比率を最適に決めるポートフォリオ最適化のために用いることができます。米国市場のデータを用いると、ニュース記事から得た株ベクトル表現を用いると、従来の株価データのみを使用する方法に比べて2.8倍の利益が得られます。ロンドン、東京、上海市場などでも、株ベクトル表現を用いたポートフォリオで、利益が増大することが実証されています。 参考文献

73

文書にはさまざまな観点から複雑さがあります。たとえば、圧縮率や、ゆらぎの度合いなどです。複雑さは、文書がどの程度「推論」に基づくものであるか、により異なります。たとえば、数学の証明のコーパスは、文学作品よりも、圧縮率は大きいです。法律文書のように、自然言語の文書の中でも、推論に基づく文書は、数学の証明に似た性質を持ちます。推論の度合いと複雑さの関係を調べ、法律文書やプログラムの工学に必要な言語モデルを考えています。

45

この研究では、実現ボラティリティ(RV)の予測のために、正規化フローを使用した新しい機械学習モデルが提案されています。RVの特性を考慮し、変換と予測モデルを共同でトレーニングする方法が提案され、最大尤度目的関数に基づくトレーニングが行われます。この新しいアプローチは、100銘柄のデータセットにおいて、従来の分析的またはニューラルネットワークに基づく変換方法よりも優れた結果を示しています。 参考文献

182

言語、音楽、プログラムなど記号に基づく時系列のエントロピーレートを算出し、 人の記号の時系列に内在する複雑さを探求しています。長さnの時系列の場合の数を、パラメータhを用いて2hnとして考えてみます。まずランダムなビット列の場合はh=1です。では英語を仮に27文字と考えたとしてその数は27n、にはなりません。なぜなら自然言語の場合、qの後にはuしか続かないなど言語的な制約がさまざまにあるからです。情報理論の父シャノンはh=1.3と算出していますが、hの推定は難しい問題で、自然言語のhが正なのかすら未だにわかっていません。研究室では自然言語に加え、音楽・プログラム・金融データなどさまざまな記号時系列の複雑さを推定する研究を行っています。 参考文献

183

2018年初頭のビットコインの暴落の背景には、社会的な要因がさまざまにあり ます。中でも、メディアの影響は大きく、ニュース報道や、TwitterなどのSNS での真偽入れ混じった情報拡散が大影響を与えています。 研究室では、株価や仮想通貨のデータを集積し、ニュースやTwitterが価格変動に与える影響を分析し, 文書の中から価格に影響を与えるであろう情報のマイニングを試みています。 参考文献

185

物理経済の理論下では、価格のスケーリング則が知られ、それは市場がなぜ簡単に破綻するのか、 その理由を説明するものです。金融市場の大きな問題の一つは、稀少な事象に起因するリスクの特徴を、 いかに捉えるか、という点にあります。たとえば、コロナ禍は稀少な事象例で、その際の株価の動向は、 過去のデータからモデル化することは難しいのです。この点、新聞などの文書では、 稀な事象を、より強調して記述するものです。このため、価格に加え文書を利用することは、リスクを捉える一つの手段となります。 研究室では、文書データを用いて、経済リスクを計量し応用する方法を研究しています。 参考文献

105

複雑系の本質的な一面として、イベントが「塊として現れる性質」があります。たとえば、下図は、ある特定の単語群が時系列の中で現れる位置を示しており、上段ほど「稀」な単語に絞って表示しています。最上段を見ると、稀なイベントが塊として現れていることがわかります。統計物理学では、このような性質をゆらぎ解析や長相関として捉える方法論が研究されてきましたが、それは主として数値時系列に対する解析手法となっており、非数値的な時系列での計測方法は確立したとはいえません。研究室では、既存手法を改良し、安定してこのようなゆらぎを計測する方法を模索しています。得られた方法を利用し、系の複雑さを計量することも試みています。 参考文献

146

大人に比べて子供の話し言葉はどの程度構造的に複雑なのでしょうか? また、歴史に残る名作は、Wikipediaに比べてどうでしょうか? 言語の構造的複雑さの考察については、文法に対する『チョムスキー階層』が知られ、 書き換えルールの制約によって言語が階層的に捉えられます。 研究室ではこれとは別に、文書に内在するスケーリング則から得られる統計量を利用し、 構造の複雑さを計量する方法を探求しています。  参考文献

70

様々な種類のデータに対して様々な統計量が数理的に考察されてきました。自然言語のテキストに対しては著者や言語種、ジャンルなど、その種類を量的に峻別する統計量とは何かが考えられてきました。例えば統計学者Yuleが提案したKがその一つで、これはRenyiの2次エントロピーと等価です。YuleのKはデータ量に依存しない統計量となっており、データの性質を安定的に表す統計量となっています。研究室では、データのスケーリング則との関連をふまえ、このような統計量として何があるかを探究しています。 参考文献

60

「_月_日_時より_スタート!」「regard _ as _」など、穴空きの定型表現は文書には頻出し、特にツイートやブログでは多用されています。穴空きの定型表現は文法導出に相当し、難しい問題の一つです。研究室では、穴空きの定型表現を最小オートマトンを作成して抽出することを試みています。最小オートマトンは、できる限り重複を重ね合わせた構造を作ります。重複した部分は定型部分、そうでない部分は穴部分として捉えることによって穴空きの定型表現を得ます。基礎的な検証を経て、深層学習で実装し、SNSからのパターン抽出など応用を考えています。 参考文献

複雑な時系列の生成モデル

生成モデルは、工学上の一つ重要なテーマで、ある系のサンプルを、擬似的に実現する方式のことです。生成モデルを探求することは、系の本質を捉え、それを実現する学習器の能力を吟味し、その構成を再考することにつながります。研究室では、マルコフモデル、文法的モデル、Simon生成過程など既存のモデルに加え、複雑系ネットワーク上のランダムウォーク、AutoencoderやAdversarialなど深層学習生成モデルも含め、複雑系を包括的に再現する試みを行っています。 参考文献

100

深層学習はデータのどのような側面を捉え、または捉えきれないのでしょうか。 複雑系としての記号の系にはさまざまな経験則が成り立つことが知られています。 研究室では、深層学習が生成する擬似データにどの程度の冪乗則が成り立っているか検証し、 従来の観点からは異なる観点から深層学習を吟味し、深層学習の改良につなげることを考えています。 たとえば右図は、文書は成り立つ長相関が文字レベル深層言語モデルでは成立しないことを示しています。 このような議論は自然言語以外の系、例えば金融市場にも適用することができます。 参考文献