11 ポイント 投稿者 xguru 2024-07-17 | 2件のコメント | WhatsAppで共有
  • コード生成に特化した Mamba2 言語モデル
  • Mamba モデルは、トランスフォーマーモデルとは異なり、線形時間推論と、理論上は無限長のシーケンスをモデリングできる能力を提供
    • 入力長に関係なく高速に応答できるため、ユーザーはモデルと広範に相互作用可能
    • このような効率性は特にコード生産性に影響し、SOTA のトランスフォーマー系モデルと同等の性能を発揮可能
  • ベンチマーク結果では、7B モデルにおいて Codestral Mamba (7B) は既存の CodeGemma-1.1 7B、CodeLlama 7B、DeepSeek v1.5 7B などを上回る、またはほぼ同等の能力を示す
  • 優れたローカルコードアシスタントになることが期待される
  • mistral-inference SDK、TensorRT-LLM を通じてデプロイ可能で、ローカル推論向けに llama.cpp でもサポート予定
  • HuggingFace で生の重みをダウンロード可能

2件のコメント

 
xguru 2024-07-17

Hacker Newsの意見

  • VS Codeで実行するための手順が必要

    • 投稿に手順へのリンクや、VS Code Extension のワンクリックインストールリンクを含めると採用の助けになるはず
    • 多くのユーザーが関心を持ちそうなモデルだが、収益化可能な行動喚起がない点は問題
  • FIM 機能を備えたモデルのおすすめを求めている

    • codellama-13b を vim extension と一緒に使っているが、性能はあまり良くない
    • Gemma-27b はより良いコードを生成するが、FIM 機能がない
    • codellama-34b は推論がうまく動作しない
  • MBPP 列では DeepSeek を強調すべき

    • DeepSeek のほうが Codestral より高いスコアを持っている
  • モデルが HuggingFace にあると発表したが、リンクが提供されていない

  • Mamba2 を使った注目度の高いモデルを見るのは良いこと

  • Mamba のほうが速いと主張しているが、レイテンシの数値がない

    • 実際に使った人がいるのか、そして本当に速いのか気になる
  • Mamba と Transformers の長所と短所についてのプロダクト紹介を勧めている

  • Mamba アーキテクチャについて良い説明があるか気になっている

  • LLM の一般的な概念は理解しているが、ChatGPT や Claude など一般公開されたツールしか使ったことがない人向けの動画や記事を勧めている

    • ローカルで実行できるハードウェアがあるか確認したいが、どこから始めればいいのかわからない
  • model.box のプレイグラウンドで簡単なテストを行った

    • 他のモデル(e.g., gpt-4o)より完了の長さが目に見えて短い
    • 応答速度は期待どおり