1 ポイント 投稿者 GN⁺ 2024-04-12 | 1件のコメント | WhatsAppで共有

1件のコメント

 
GN⁺ 2024-04-12
Hacker Newsの意見
  • 重みとハードウェアがあるとして、このモデルを一番簡単に動かす方法が気になる
    モデルの半分をRAMにオフロードするとしても、どのツールでロードすべきか、OllamaなのかLlama.cppなのか、それともPythonライブラリに持っていけばよいのか知りたい
    また、他のモデルと比較するならベンチマークをどう取るのがよいのか、すぐ使えるツールがあるのかも気になる
    • llamafile方式が一番よさそう
      バイナリがコマンドラインで動くか、小さなWebサーバーを立ち上げてくれる
      llamafileはMixtral-8x7B-Instructビルドを提供しているので、このモデルもおそらくパッケージ化でき、量子化形式である可能性もある
      エコシステムにもっと詳しい人への確認は必要だが、新しいモデルもそのままllamafileで動かせそう
      https://github.com/Mozilla-Ocho/llamafile
    • 一番簡単な方法は、vllm(https://github.com/vllm-project/vllm)でA100を2枚くらい使って動かすことで、ベンチマークはlm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)で可能
    • MacBookでLLMを試すにはLM Studioがすばらしい: https://lmstudio.ai/
      アプリ内でHugging Faceの新モデルを検索して、そのまますぐ試すのがとても簡単
    • Hugging FaceにはThe Blokeというユーザーがいて、フルサイズのモデルが出てからほどなく事前量子化済みモデルを上げてくれる
      そのページを見張りつつ、4ビットモデルがGPUに収まることを祈ればよい
      すでに作業中だと思う
    • Togetherでここから試せる:
      https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
  • 重複投稿はこちら: https://news.ycombinator.com/item?id=39986047
    プロフィールではなくツイートへのリンクが入った投稿:
    https://twitter.com/MistralAI/status/1777869263778291896
  • 8x22Bとは、これがMixtral 8x7B並みに良いなら本当に面白い時期になりそう
    • Command RがベンチマークでGPT-4に勝った最初のオープンソースだと聞いた
    • すでに8x7Bがあるのに、別の8x7Bを欲しがる理由はないのだから、より良いということだろう?
  • 話題から少し外れるが、あの魔法のようだと言われていた頃のChatGPT 4の性能に、もう戻ってきたのか気になる
    政治的により正しくする中で性能が大きく落ちる前の基準のこと
    • MacBookで複数のLLMを試したが、どの時点のGPT-4と比べても、まだどれもかなり及ばないと思う
      ただしGPT-3級のモデルは多く、特定の作業向けにファインチューニングされたモデルもかなりある
      オープンモデルで大きく欠けているのは言語サポート
      ノルウェー語で実用的な結果を出せるモデルは1つしか見たことがなく、GPT-4では一度も問題になったことがなかった
    • オープンモデル基準では、少なくともChatGPT 4初期リリースの性能には到達したと思う
  • Llama 3が出る前に、それぞれ最高の小型モデルを出そうという競争なのか?
    • 262GBはとても小さいとは言いにくい
      それでも、もしLlama 3より悪い結果になれば後から出すのは気まずくなりそうなので、今のうちに出している雰囲気がある
    • Llama 3が今後2週間以内に出るという噂を見ると、かなりありそう
  • Mixtral 8x7Bは使っていて良かったし、このモデルも試すのが楽しみ
  • 非公式ベンチマークはこちら:
    https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
    • ここにGPT-4もあってほしい
      まだ超えるべき相手はそのモデル
  • 4ビット量子化ならVRAM 85GBが必要になりそうなので、24GBの民生用GPU 4枚にちょうど収まり、KVキャッシュ最適化用の余裕も少し残るはず
    • 4ビットならこれより少なくて済む可能性がある
      エキスパートモデル間で共有されるパラメータがかなりあるため
      ただし、バッチサイズ1で回すのでなければ、8枚GPU構成よりつらいかもしれない
      バッチ内で大半またはすべてのエキスパートが有効になる可能性がほぼ確実にある
    • Mixtral 8x7Bの2ビット量子化は、8GB GPUでも一部用途ではそこそこ使えた
      この新モデルが8〜16GB級の安価なGPU構成でどう動くのか気になる
  • これはベースモデルであって指示追従モデルではない、という点がとても重要
    チャットに役立つのは指示チューニングされたモデル
    • 強力なベースモデルをそのまま使うとどんな感じなのか気になる
      ただプロンプトのテキストを続けるように補完する感じなのだろうか?
  • Llama 3が公開されるタイミングにぴったり合わせてきた
    • 同じ日にGoogle Gemini Proがほぼ完全なオープンな長文コンテキストのマルチモーダルアクセスを出し、OpenAIもGPT-4-Turboをアップグレードしたので、ニュースが殺到した大きな一日だった