Mistral AI、新しい言語モデル Codestral Mamba を公開
(mistral.ai)- コード生成に特化した Mamba2 言語モデル
- Mamba モデルは、トランスフォーマーモデルとは異なり、線形時間推論と、理論上は無限長のシーケンスをモデリングできる能力を提供
- 入力長に関係なく高速に応答できるため、ユーザーはモデルと広範に相互作用可能
- このような効率性は特にコード生産性に影響し、SOTA のトランスフォーマー系モデルと同等の性能を発揮可能
- ベンチマーク結果では、7B モデルにおいて Codestral Mamba (7B) は既存の CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B などを上回る、またはほぼ同等の能力を示す
- 優れたローカルコードアシスタントになることが期待される
- mistral-inference SDK、TensorRT-LLM を通じてデプロイ可能で、ローカル推論向けに llama.cpp でもサポート予定
- HuggingFace で生の重みをダウンロード可能
2件のコメント
Hacker Newsの意見
VS Codeで実行するための手順が必要
FIM 機能を備えたモデルのおすすめを求めている
codellama-13bを vim extension と一緒に使っているが、性能はあまり良くないGemma-27bはより良いコードを生成するが、FIM 機能がないcodellama-34bは推論がうまく動作しないMBPP 列では DeepSeek を強調すべき
モデルが HuggingFace にあると発表したが、リンクが提供されていない
Mamba2 を使った注目度の高いモデルを見るのは良いこと
Mamba のほうが速いと主張しているが、レイテンシの数値がない
Mamba と Transformers の長所と短所についてのプロダクト紹介を勧めている
Mamba アーキテクチャについて良い説明があるか気になっている
LLM の一般的な概念は理解しているが、ChatGPT や Claude など一般公開されたツールしか使ったことがない人向けの動画や記事を勧めている
model.box のプレイグラウンドで簡単なテストを行った
gpt-4o)より完了の長さが目に見えて短いCodestral - Mistralのコード生成AIモデル