1 ポイント 投稿者 GN⁺ 2024-04-12 | 1件のコメント | WhatsAppで共有

1件のコメント

 
GN⁺ 2024-04-12
Hacker Newsの意見
  • モデルの実行には、Ollama、Llama.cpp、またはPythonライブラリなどのツールを使用できる。モデルの半分ほどをRAMにロードすることも可能。
  • モデル性能を比較するためのベンチマークには、Hugging Faceが提供する非公式ベンチマークを活用できる。ただし、これはbaseモデルに対するものであり、実際のチャットで使われるinstruct fine-tunedモデルとは違いがある点に注意が必要。
  • Mixtral-8x22B-v0.1モデルが以前のMixtral 8x7Bモデルと同じくらい良い性能を示すなら、非常に期待できるモデルだ。
  • ChatGPT 4が当初「魔法のように動作する」と評価されていた水準の性能に戻れるかどうかに関心がある。ポリティカル・コレクトネスのために性能が下がったことを惜しむ声もある。
  • Llama3のリリース前に、誰もが最高の小型モデルを出そうと競争している状況に見える。
  • 4-bit量子化により85GBのVRAMが必要になるため、24Gのコンシューマー向けGPU 4枚で十分に動かせる。KVキャッシュ最適化のための余裕もある。
  • モデルの重みが公開されてから1日以上経っているにもかかわらず、Mistralから公式発表やモデルカードが提供されておらず、Mistral自体のプラットフォームでも使えない点は奇妙だ。