Mistral 7B
(mistral.ai)- 現時点で最も強力な言語モデル
- 7.3Bパラメータのモデルで、すべてのベンチマークで Llama 2 13B を、多くのベンチマークでは Llama 1 34B を上回る
- より高速な推論のための Grouped-query attention (GQA) と、より低コストでより長いシーケンスを処理するための Sliding Window Attention (SWA) を使用
- Apache 2.0 ライセンスで、制限なく利用可能
- どのクラウド(AWS/GCP/Azure)でも vLLM 推論サーバーと skypilot を使ってデプロイでき、HuggingFace でも利用可能
- 容易にファインチューニングでき、チャット向けにファインチューニングされたモデルは Llama 2 13B Chat を上回る
1件のコメント
Hacker Newsの意見