2 ポイント 投稿者 GN⁺ 2024-03-17 | 1件のコメント | WhatsAppで共有

Quiet-STaR: 言語モデルに話す前に考えることを教えられる

  • 人は文章を書いたり話したりするとき、ときどき考えるために立ち止まるが、このような推論はほぼすべての書かれたテキストに内在している。
  • Self-Taught Reasoner(STaR)では、質問応答において少数の例を通じて根拠を推論し、正しい答えを導く根拠から学習することで有用な思考を学ぶ方法を示している。
  • Quiet-STaRはSTaRを一般化したもので、言語モデルが未来のテキストを説明するために各トークンごとに根拠を生成するよう学習し、予測を改善する。

主な課題と解決策

  • 連続的なテキスト生成の計算コスト、言語モデルが内部的な思考を生成または利用する方法を当初は知らない問題、個々の次トークンを超えて予測する必要性などの課題がある。
  • これらの問題を解決するため、思考の開始と終了を示す学習可能なトークンを用いるトークンごとの並列サンプリングアルゴリズムと、拡張されたteacher-forcing技法を提案している。

モデル性能の向上

  • 生成された根拠は難しいトークンの予測に役立ち、言語モデルが難しい質問に直接回答する能力を向上させる。
  • インターネットテキストコーパスで言語モデルをQuiet-STaRにより継続事前学習した結果、GSM8K(5.9%→10.9%)とCommonsenseQA(36.3%→47.2%)でzero-shot改善が見られ、自然テキストにおける難しいトークンのperplexity改善も観察された。
  • これらの改善は、対象タスクに対するファインチューニングなしで達成されている。

GN⁺の見解

  • Quiet-STaRは、言語モデルがより汎用的かつスケーラブルな方法で推論を学習できる方向へ一歩前進したことを示している。
  • この研究は、人工知能分野において言語理解と推論能力を強化する重要な進展を示しており、自然言語処理技術の発展に寄与しうる。
  • 批判的に見ると、この技術が現実世界の複雑な問題に適用される際、予期しない結果を招く可能性もあり、追加の研究と安全対策が必要である。
  • 類似の機能を提供する他のプロジェクトとしては、OpenAIのGPTシリーズやGoogleのBERTがあり、これらも言語理解と生成能力を向上させるための研究が進められている。
  • 技術導入時に考慮すべき点として、学習データの質と多様性、モデルの倫理的利用、そして計算コストがあり、この技術を選択することで、より正確で精緻な言語モデル生成という利点が得られる。

1件のコメント

 
GN⁺ 2024-03-17
Hacker Newsの意見
  • ネットワークが約50層の深さで構成されているなら、このネットワークは50「段階」分の記号的な問いについて推論できることを意味する。モデルが訓練された部分空間における50段階は、人間の1段階より多くのことを達成できる可能性を意味するかもしれないが、人間にはこうした段階を超えて考え、熟慮する能力があることが分かっている。
  • エツヘル・ダイクストラはオランダ語を母語としながらも、非常に正確な英語の文体を持っていた。彼は幼い頃から、文を書き始める前にその文をどう終えるかを分かっていなければならないと教わったと回想していた。この二つの観察の間には因果関係があるのではないかという推測がある。
  • LLMベースのシステムの性能向上に寄与する「思考の連鎖」推論パターンが、カーネマンの『ファスト&スロー』で扱われる二つのシステムモデルと並行しているという考えが浮かんだ。「システム1」は低い労力と計算で処理される思考に、「システム2」は意識的で高度な認知作業に使われる。LLMは「システム1」しか使っていないように見えるという批判に対して、段階的に考えるようLLMを誘導することは、いわば「システム2」のような意思決定サンドボックスを与えるのに近い。
  • この方法は、答えは既知だが推論ステップが欠けている多くの課題についてAIを訓練するための欠けていたピースだ。これを使えば、少量のアノテーション付きデータでも推論能力に到達できる。生成された思考は人間には理解しづらいかもしれないが、正しい答えを得るうえではるかに役立つのなら、私たちは自分たちより知的なものを創り出したと言えるかもしれない。
  • テキストの意味の多くは行間に隠れており、文書の中でなぜその記述が現れるのかを理解していなければ、読者は表面的な理解しか持てない。しかし、たいていの人は世界モデルを持っており、本に出てくる記述の理由をある程度は分かっている。たとえば流体力学の教科書を読むとき、数学は理解できなくても、その記述がなぜ現れるのかは分かっている。
  • この論文の著者たちが、OpenAIのうわさに包まれたQ*モデルと関係しているのか、それとも単なる名前の偶然なのかという疑問がある。
  • 彼らは、彼らの研究に先立つほぼ8年前にRNNへ(学習された)可変計算を適用した言語モデリングに関する論文[1]を引用していない。当時、Microsoftも画像認識向けに似たようなものを持っていた。
  • これは今朝プロンプトレベルで試していたことと基本的に同じだが、さらに進めて、LLMがそのコンテキストを再探索する助けとなる「メタトークン」を導入することを考えた。これらのメタトークンの一部は、コンテキストの一部を強調したり、構造化したり、要約したり、忘れさせたりするなどの副作用を持ちうる。これはLLMに論理的/推論能力を与えるだけでなく、自身の認知構造を作り出せる手段を提供する可能性がある。
  • Intelチームが、NeuralChatと同様にBase Mistral 7Bを評価に不適切な形で使おうとした事例がある。
  • この研究は非常に興味深く見え、研究者たちが近いうちにコードを公開する可能性があるのかという疑問がある.