11 ポイント 投稿者 GN⁺ 2023-09-28 | 1件のコメント | WhatsAppで共有
  • 現時点で最も強力な言語モデル
  • 7.3Bパラメータのモデルで、すべてのベンチマークで Llama 2 13B を、多くのベンチマークでは Llama 1 34B を上回る
  • より高速な推論のための Grouped-query attention (GQA) と、より低コストでより長いシーケンスを処理するための Sliding Window Attention (SWA) を使用
  • Apache 2.0 ライセンスで、制限なく利用可能
  • どのクラウド(AWS/GCP/Azure)でも vLLM 推論サーバーと skypilot を使ってデプロイでき、HuggingFace でも利用可能
  • 容易にファインチューニングでき、チャット向けにファインチューニングされたモデルは Llama 2 13B Chat を上回る

1件のコメント

 
GN⁺ 2023-09-28
Hacker Newsの意見
  • Mistralは、MetaやDeciLMと異なり、このクラスのモデルにApacheライセンスを付与した最初の企業です。
  • このモデルはMacBook Air M1で問題なく動作し、GPT-3.5に匹敵します。
  • JSONのような構造化データを処理するための「関数呼び出しAPI」を利用できるかどうかという疑問があります。
  • モデルの学習に使われたデータセットへの懸念や、ベンチマークのリークが結果を水増ししている可能性が指摘されました。
  • モデルの発表は、TwitterのトレントトラッカーURIを通じて行われました。
  • LLM向けのコーディング補助ツールのテストでは、MistralはCodeLlamaやGPT-4ほど良い性能を示しませんでした。
  • このモデルはllama.cppに対応しているため、macOSのFreeChatで動作します。
  • なぜプロジェクトが、7Bモデルのような大きな区分の中で特定のパラメータ規模に標準化しているように見えるのか、という疑問があります。
  • モデルの学習について、それが基づいているデータや、どこで学習されたのかといった詳細情報を求める声があります。
  • 学習セットにおけるベンチマーク汚染のテストを求める声があります。