2 ポイント 投稿者 GN⁺ 2024-02-19 | 1件のコメント | WhatsAppで共有

Representation Engineering Mistral-7B、アシッドトリップ

  • 制御ベクトルとは?

    • 制御ベクトルは、推論時にモデルの活性化に適用して追加のプロンプトなしでモデルの振る舞いを制御できるベクトル(各レイヤーごとのベクトルのリスト)です。
    • 同じプロンプトと同じモデルを使っている場合でも、制御ベクトルの適用有無やその大きさを変えるだけで異なる結果を生成できます。
  • 制御ベクトルは作るのが難しくない

    • PCAを用いて対照的なプロンプトペアのデータセットを作成し、モデルを実行して各レイヤーの隠れ状態を収集した後、単一成分PCAで各レイヤーの制御ベクトルを取得します。
    • このプロセスには、数行のコードと約1分ほどの時間がかかります。
  • 制御ベクトルでできること

    • 制御ベクトルを使ってAIモデルを「アシッドトリップ」状態にしたり、「怠け」や「勤勉」、「創造性」などさまざまな状態に制御することができます。
    • 各制御ベクトルは数分以内でトレーニングでき、GitHubの実験用ノートブックから直接試すことができます。
  • 制御ベクトル対プロンプトエンジニアリング

    • 制御ベクトルとプロンプトエンジニアリングは異なるアプローチですが、一部重なる部分があります。
    • 制御ベクトルは、プロンプトエンジニアリングで再現可能な結果を生成できますが、強度の調整はより容易です。

GN⁺の見解

  • 制御ベクトルの重要性: 制御ベクトルはAIモデルの行動をきめ細かく調整できる強力なツールであり、プロンプトエンジニアリングの限界を超える新しい可能性を示します。
  • 効率性とアクセシビリティ: 制御ベクトルを使えば、ユーザーは複雑なプロンプト構築なしでモデルの振る舞いを簡単に調整でき、AIの使いやすさを大きく向上できます。
  • 創造的な応用: 制御ベクトルを使ってAIを「アシッドトリップ」状態にするなどの創造的な実験は、AI研究における新しい次元の実験的アプローチを可能にします。

1件のコメント

 
GN⁺ 2024-02-19
Hacker Newsのコメント
  • この技術の影響はすごいものになるはずだと感じて、気が急いている。理解が完全に正確ではないかもしれないが、個別化された「制御ベクトル」を保存してChatGPTの出力を個人の好みにより近づけるよう調整できることを意味しているようだ。これはパーソナライズされたAIエンターテインメントにつながる可能性があり、そうした市場では個別的かつ大規模なネットワーク効果が起こりうる。これは将来、単一の巨大企業がすべての市場を独占する可能性を示唆している。
  • 記事はよく書かれていて面白い。LLMの理解を深めるための文献やブログ投稿を共有してほしいというリクエスト。
  • 制御ベクトルは人間のホルモンを思い出させる。モデルの行動のかなり大きな部分を一度に修正する。10年以内にAI精神科医がコンパニオンアシスタントへ「幸福制御ベクトル」サプリメントを処方するのを見ることになるように思う。
  • LLMをこのように要約したのは初めて見た。こういうやり方が気に入った。
  • この記事は面白く、最近AIが退屈で単調になってきたという内容の「You Sound Like a Bot」投稿に対する良い対比だ。冗談っぽい面では、「自己認識」ベクトルを見つけることは、人類に問題を引き起こすことを分かっている小説家にとってチャレンジだ。
  • これはバイアス調整に似ていて、LoRAの競合だ。各線形層の活性化に追加されたベクトルだけを微調整して、まずまずのアダプタを得ることができる。
  • 記事は非常に良い。ニューロンネットワークの全レイヤーにわたって制御ベクトルを統合する理由について疑問がある。各ベクトルが通過するすべてのレイヤーに影響を与えるため、データ表現が過度に歪む危険がないだろうか?
  • 記事は非常に良い。制御ベクトルを使うと、モデルの行動が変わるのではなく、他の人の行動に対するモデルの判断が変わる。これは、モデルに正直に振る舞うよう、または不正直に振る舞うよう求めて生成された、同じ「正直」ベクトルだ。
  • 推論側面(全レイヤーに何かを追加すること)がLoRAとかなり似ている。制御ベクトルをLoRAとしてエンコードし、既存の推論フレームワークで大きな問題なく使えるのか、それとも理解が間違っているのか?
  • 複数のベクトルを同時に適用できるかについて疑問がある。たとえば、幻覚的で悲しい、正直で自己認識的、怠惰で創造的、などの組み合わせ。