Mistral AI、新しい言語モデル Codestral Mamba を公開

xguru · 2024-07-17T09:43:01+09:00

コード生成に特化した Mamba2 言語モデル Mamba モデルは、トランスフォーマーモデルとは異なり、線形時間推論と、理論上は無限長のシーケンスをモデリングできる能力を提供入力長に関係なく高速に応答できるため、ユーザーはモデルと広範に相互作用可能このような効率性は特にコード生産性に影響し、SOTA のトランスフォーマー系モデルと同等の性能を発揮可能ベンチマーク結果では、7B モデルにおいて Codestral Mamba (7B) は既存の CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B などを上回る、またはほぼ同等の能力を示す優れたローカルコードアシスタントになることが期待される mistral-inference SDK、TensorRT-LLM を通じてデプロイ可能で、ローカル推論向けに llama.cpp でもサポート予定 HuggingFace で生の重みをダウンロード可能

(mistral.ai)

11 ポイント投稿者 xguru 2024-07-17 | 2件のコメント | WhatsAppで共有

コード生成に特化した Mamba2 言語モデル
Mamba モデルは、トランスフォーマーモデルとは異なり、線形時間推論と、理論上は無限長のシーケンスをモデリングできる能力を提供
- 入力長に関係なく高速に応答できるため、ユーザーはモデルと広範に相互作用可能
- このような効率性は特にコード生産性に影響し、SOTA のトランスフォーマー系モデルと同等の性能を発揮可能
ベンチマーク結果では、7B モデルにおいて Codestral Mamba (7B) は既存の CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B などを上回る、またはほぼ同等の能力を示す
優れたローカルコードアシスタントになることが期待される
mistral-inference SDK、TensorRT-LLM を通じてデプロイ可能で、ローカル推論向けに llama.cpp でもサポート予定
HuggingFace で生の重みをダウンロード可能

2件のコメント

xguru 2024-07-17

Hacker Newsの意見

VS Codeで実行するための手順が必要
- 投稿に手順へのリンクや、VS Code Extension のワンクリックインストールリンクを含めると採用の助けになるはず
- 多くのユーザーが関心を持ちそうなモデルだが、収益化可能な行動喚起がない点は問題
FIM 機能を備えたモデルのおすすめを求めている
- codellama-13b を vim extension と一緒に使っているが、性能はあまり良くない
- Gemma-27b はより良いコードを生成するが、FIM 機能がない
- codellama-34b は推論がうまく動作しない
MBPP 列では DeepSeek を強調すべき
- DeepSeek のほうが Codestral より高いスコアを持っている
モデルが HuggingFace にあると発表したが、リンクが提供されていない
- リンク: HuggingFace Mamba-Codestral-7B-v0.1
Mamba2 を使った注目度の高いモデルを見るのは良いこと
Mamba のほうが速いと主張しているが、レイテンシの数値がない
- 実際に使った人がいるのか、そして本当に速いのか気になる
Mamba と Transformers の長所と短所についてのプロダクト紹介を勧めている
Mamba アーキテクチャについて良い説明があるか気になっている
LLM の一般的な概念は理解しているが、ChatGPT や Claude など一般公開されたツールしか使ったことがない人向けの動画や記事を勧めている
- ローカルで実行できるハードウェアがあるか確認したいが、どこから始めればいいのかわからない
model.box のプレイグラウンドで簡単なテストを行った
- 他のモデル（e.g., gpt-4o）より完了の長さが目に見えて短い
- 応答速度は期待どおり

xguru 2024-07-17

Codestral - Mistralのコード生成AIモデル

Mistral AI、新しい言語モデル Codestral Mamba を公開

関連記事

2件のコメント

Hacker Newsの意見