1 ポイント 投稿者 GN⁺ 2024-01-10 | 1件のコメント | WhatsAppで共有

Mixtral of Experts の紹介

  • Mixtral 8x7Bは、Sparse Mixture of Experts (SMoE) 言語モデルである。
  • MixtralはMistral 7Bと同一の構造を持つが、各レイヤーは8個のフィードフォワードブロック(専門家)で構成される。
  • 各トークンについて、ルーターネットワークが現在の状態を処理する2人の専門家を選択し、その出力を結合する。

性能とベンチマーク

  • 各トークンは47Bのパラメータにアクセスできるが、推論中に使用されるアクティブなパラメータは13Bのみである。
  • Mixtralは32kトークンのコンテキスト長で学習されており、評価されたすべてのベンチマークでLlama 2 70BおよびGPT-3.5を上回るか同等の性能を示す。
  • 特に数学、コード生成、多言語ベンチマークではLlama 2 70Bを大きく上回る。

モデルのFine-tuningとライセンス

  • 指示追従向けにFine-tuningされたモデルであるMixtral 8x7B - Instructは、人間によるベンチマークでGPT-3.5 Turbo、Claude-2.1、Gemini Pro、Llama 2 70B - chatモデルを上回る。
  • ベースモデルとInstructモデルの両方がApache 2.0ライセンスのもとで公開されている。

GN⁺の見解

  • Mixtral 8x7Bは、既存の言語モデルと比較して優れた性能を示すと評価されている。これは人工知能の言語処理分野の進展を示す重要な指標である。
  • 特に多様な言語やコード生成における性能向上は、機械翻訳や自動プログラミングなど、さまざまな応用分野に前向きな影響を与える可能性がある。
  • Apache 2.0ライセンスで公開されたことは、研究者や開発者がこのモデルを自由に利用し改善できる機会を提供し、オープンソースAIコミュニティの成長に貢献するとみられる。

1件のコメント

 
GN⁺ 2024-01-10
Hacker Newsの意見
  • Mixtral 8x7Bモデルに関する議論

    • Mixtral 8x7Bモデルは約1か月前から使われており、13Bクラスとして非常に優れた性能を示している。
    • 競合モデルと比べて高い順位を占めており、日常的なMacでの利用において、チャットやコード入力などに非常に有用である。
    • Mistral 7Bから始まった8人のエキスパートが、それぞれ異なる方向に発展した可能性があるという見方が示されている。
    • Mistralの場合、8x7Bネットワークの学習は、7Bネットワークを8個学習するのと同じだけの労力は必要なかったように見える。
    • LLM分野では依然として急速なイノベーションが進んでおり、Calmのような新しい研究や、Goliath-120bのような実験的モデルが登場している。
    • 2024年上半期には、コンシューマー向けハードウェアで高性能なモデルが登場すると予想される。
  • モデルの性能と実用性

    • このモデルは13bのパラメータで3090上で高品質にスムーズに動作し、humanevalでGPT-3.5を上回り、32kコンテキストをサポートする。
    • 3090はゲーマーの間で一般的に使われているコンシューマーグレードのハードウェアである。
    • ゲーム開発者たちがゲーム内でMixtralを活用し始めることへの期待がある。
  • モデルの利用方法

    • MixtralモデルはMozilla/jartによってLlamafileとして公開されており、ユーザーはそのファイルをダウンロードして実行できる。
  • Macシリコンでの利用

    • Macシリコンのユーザーはollama.aiを通じてMixtralをダウンロードし、ollama-webuiを使ってWeb UIを構築できる。
  • 関連ニュースと議論

    • Mixtralモデルに関する最近のニュースと議論へのリンクが提供されている。
  • モデルのベンチマーク性能

    • Mixtralは数学、コード生成、多言語ベンチマークでLlama 2 70Bモデルを大きく上回っている。
    • 数学分野での性能に関心が集まっており、この分野はまだ効果的に解決されていないように見える。
  • 論文に対する批判的な意見

    • LLMに関する論文には詳細が不足しているという批判がある。
    • エキスパートをどのように学習させたのか、どのデータセットを使ったのかについての説明が欠けているという指摘がある。
  • Mistral創業者のインタビュー内容

    • Mistralの創業者はA16Zポッドキャストのインタビューで、chatGPTとGPT4のレベルの間に位置する複数の内部モデルを持っていると言及した。
    • これまでの高品質なリリースを踏まえると、オープンソースLLMへの期待感が表明されている。
  • 各エキスパートモデルの説明

    • 8つのモデルのうち1つが多言語翻訳に特化しているのか、別の1つがコーディングに特化しているのかについて、論文には説明がない。
  • マルチモーダルモデル公開への期待

    • テキストのみを扱うモデルの進歩は驚くべきものだったが、GPT-4の「創発的」な振る舞いがマルチモーダル学習によるものではないかという疑問がある。
    • マルチモーダルを含む小型モデルでも同様の飛躍が見られるのかに関心がある。