Mistral 7B

(mistral.ai)

11 ポイント投稿者 GN⁺ 2023-09-28 | 1件のコメント | WhatsAppで共有

現時点で最も強力な言語モデル
7.3Bパラメータのモデルで、すべてのベンチマークで Llama 2 13B を、多くのベンチマークでは Llama 1 34B を上回る
より高速な推論のための Grouped-query attention (GQA) と、より低コストでより長いシーケンスを処理するための Sliding Window Attention (SWA) を使用
Apache 2.0 ライセンスで、制限なく利用可能
どのクラウド（AWS/GCP/Azure）でも vLLM 推論サーバーと skypilot を使ってデプロイでき、HuggingFace でも利用可能
容易にファインチューニングでき、チャット向けにファインチューニングされたモデルは Llama 2 13B Chat を上回る

1件のコメント

GN⁺ 2023-09-28

Hacker Newsの意見

Mistralは、MetaやDeciLMと異なり、このクラスのモデルにApacheライセンスを付与した最初の企業です。
このモデルはMacBook Air M1で問題なく動作し、GPT-3.5に匹敵します。
JSONのような構造化データを処理するための「関数呼び出しAPI」を利用できるかどうかという疑問があります。
モデルの学習に使われたデータセットへの懸念や、ベンチマークのリークが結果を水増ししている可能性が指摘されました。
モデルの発表は、TwitterのトレントトラッカーURIを通じて行われました。
LLM向けのコーディング補助ツールのテストでは、MistralはCodeLlamaやGPT-4ほど良い性能を示しませんでした。
このモデルはllama.cppに対応しているため、macOSのFreeChatで動作します。
なぜプロジェクトが、7Bモデルのような大きな区分の中で特定のパラメータ規模に標準化しているように見えるのか、という疑問があります。
モデルの学習について、それが基づいているデータや、どこで学習されたのかといった詳細情報を求める声があります。
学習セットにおけるベンチマーク汚染のテストを求める声があります。