13 ポイント 投稿者 GN⁺ 2024-05-30 | 1件のコメント | WhatsAppで共有
  • 80以上のプログラミング言語を学習したAIモデル
  • Python、Java、C、C++、JavaScript、Bash などの人気言語だけでなく、Swift、Fortran のような特定言語にも対応しており、多様なコーディング環境やプロジェクトで開発者を支援できる

コード生成性能の新たな基準を打ち立てる

  • 従来モデルより優れた性能と短いレイテンシを達成
  • Python
    • Codestral 22B 32k : HumanEval 81.1%, MBPP 78.2%, CruxEval-O 51.3%, RepoBench 34.0%
    • CodeLlama 70B 4k : HumanEval 67.1%, MBPP 70.8%, CruxEval-O 47.3%, RepoBench 11.4%
  • SQL (Spider)
    • Codestral 63.5%, CodeLlama 37%
  • 複数言語平均
    • HumanEval 平均 : Codestral 61.5%, CodeLlama 51.9%

Codestralを始める

  • Codestral は Mistral AI Non-Production License のもとで研究およびテスト目的に利用可能で、HuggingFace からダウンロードできる
  • 新しいエンドポイント codestral.mistral.ai を通じて利用する。個人APIキーで管理され、8週間の無料ベータ期間中に利用可能
  • api.mistral.ai エンドポイント経由でも利用可能で、トークンごとに課金される。
  • Le Chat を通じて Codestral と自然にやり取りできる。

好みのコーディング環境でCodestralを利用可能

  • アプリケーションフレームワーク: LlamaIndex と LangChain に統合されている。
  • VSCode/JetBrains統合: Continue.dev と Tabnine を通じて VSCode と JetBrains 環境で Codestral を利用できる。

開発者コミュニティのフィードバック

  • Nate Sesti (Continue.dev CTO): スピードと品質を備えた公開オートコンプリートモデルは初めてであり、開発者に大きな変化をもたらすだろう。
  • Vladislav Tankov (JetBrains AI責任者): コードと開発支援に強く焦点を当てた Mistral の機能に大きな期待を寄せている。
  • Mikhail Evtikhiev (JetBrains研究員): Kotlin-HumanEval ベンチマークで GPT-4-Turbo と GPT-3.5-Turbo を上回る性能を示した。
  • Meital Zilberstein (Tabnine R&Dリード): コード生成、テスト生成、ドキュメント化などで優れた性能を示し、製品効率を大幅に向上させる。
  • Quinn Slack (Sourcegraph CEO): コード補完でレイテンシを減らしつつ品質を維持し、開発者に実質的な価値を提供する。
  • Jerry Liu (LlamaIndex CEO): 複雑な作業でも正確で機能的なコードを生成する。
  • Harrison Chase (LangChain CEO): 高速で有利なコンテキストウィンドウを提供し、ツール利用を支援する。

GN⁺の意見

  • AIコード生成の進化: Codestral は多様な言語をサポートし、性能も高く、開発者に大いに役立つ可能性がある。
  • 使いやすさ: 多様な統合オプションと専用エンドポイントを提供しており、使いやすい。
  • 性能評価: 複数のベンチマークで高い性能を示しており、信頼に値する。
  • 競合モデル: GPT-4-Turbo、GPT-3.5-Turbo などと比較しても優れた性能を示す。
  • 導入時の考慮事項: モデルの性能と使い勝手を踏まえて導入を判断する必要がある。

1件のコメント

 
GN⁺ 2024-05-30
Hacker Newsの意見

Hacker Newsコメント要約

  • ライセンス制限: モデルとその出力を商業活動や「ライブ」条件で使用することを禁じている。開発の一環としてコード出力を使用することは除外されるが、企業の事業活動の文脈での内部利用も禁止されている。これにより、他のオープンウェイトモデルとの比較が不公平になる。

  • プログラミングモデルのテスト: プログラミングモデルに特定のPython ASGIミドルウェアを書くよう依頼したが、どのモデルも正確には実行できなかった。

  • LLMの哲学の違い: LlamaスタイルのLLMとOpenAI/GPTスタイルのLLMの間には哲学の違いがある。GPTはコードに重点を置いて発展してきたが、Llama/Mistralモデルはまず汎用言語モデルを公開し、追加のコード学習を通じてCodeLlama/Codestralを提供している。

  • VSCode統合: VSCodeでCopilotのように「シャドーコード」が表示される形で使える方法があるのか気になっている。こうしたツールの品質は、クライアント側で適切なプロンプトを設計する能力に左右される。

  • 使用制限: Mistralモデルとその派生物は、テスト、研究、個人的または評価目的でのみ使用でき、商業活動では使用できない。

  • 実用性の問題: 実用的なコード補完のユースケースで使えないなら意味がないと考えられている。GH Copilotがすでに最高のモデルだ。

  • Huggingfaceリンク: Huggingfaceページリンク

  • コードの民主化: 芸術を民主化したときに起きた問題に言及しつつ、AIで生成された信頼できないライブラリが増えることを懸念している。

  • RAM要件: Huggingfaceでダウンロード可能な44GBモデルをローカルで使うためのRAM要件について質問している。GPUとAppleシリコンの「統合」RAM要件が同じなのか気にしている。

  • VSCode拡張: さまざまなモデルをプラグインとして使えるVSCode拡張があるのか気になっている。毎回設定するのは面倒だ。