6 ポイント 投稿者 GN⁺ 2024-07-25 | 1件のコメント | WhatsAppで共有
  • Mistral Large 2は128kコンテキストウィンドウを備え、フランス語、ドイツ語、スペイン語、イタリア語、中国語、日本語、韓国語を含む複数言語をサポート
    • また、Python、Java、C、C++、JavaScript、Bashを含む80以上のコーディング言語をサポート
  • 単一ノード推論向けに設計されており、1230億のパラメータで構成され、単一ノードで高いスループットを提供可能
  • 研究および非商用用途で利用・改変可能なMistral Research Licenseの下で配布。商用利用にはMistral Commercial Licenseの取得が必要

一般性能

  • Mistral Large 2は性能/コスト評価指標で新たな基準を打ち立てる
  • 特にMMLUでは、事前学習版が84.0%の精度を達成し、性能/コストのパレートフロントに新たな地点を設定

コードと推論

  • Codestral 22BとCodestral Mambaでの経験をもとに、Mistral Large 2は大量のコードで学習されている
  • Mistral Large 2は従来のMistral Largeを大きく上回り、GPT-4o、Claude 3 Opus、Llama 3 405Bのような先行モデルと同等の性能を示す
  • モデルの推論能力向上に多くの努力が払われ、事実と異なる情報を生成する傾向を最小化するためにモデルをファインチューニング
  • モデルは、解決策を見つけられない場合や十分な情報がない場合に、それを認めるよう学習されている

指示遵守とアラインメント

  • Mistral Large 2は指示遵守と対話能力が大幅に向上
  • 多くのビジネスアプリケーションでは簡潔さが重要であるため、可能な限り簡潔で要点を押さえた応答を生成するよう多くの努力が払われている

言語の多様性

  • Mistral Large 2は多言語データを大量に学習しており、英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、オランダ語、ロシア語、中国語、日本語、韓国語、アラビア語、ヒンディー語で優れた性能を示す

ツール利用と関数呼び出し

  • Mistral Large 2は強化された関数呼び出しおよび検索機能を備え、複雑なビジネスアプリケーションの動力エンジンとして機能できるよう学習されている

クラウドサービスプロバイダー経由でのMistralモデルへのアクセス

  • Google Cloud Platformとのパートナーシップを拡大し、Vertex AIでMistral AIのモデルを提供
  • Azure AI Studio、Amazon Bedrock、IBM watsonx.aiでもMistral AIのモデルを利用可能

GN⁺のまとめ

  • Mistral Large 2は多様な言語とコーディング言語をサポートし、単一ノードで高いスループットを提供する。
  • コード生成と推論能力が大幅に向上し、事実と異なる情報を生成する傾向を最小化している。
  • 多言語データを大量に学習しており、複数の言語で優れた性能を示す。
  • Google Cloud Platform、Azure AI Studio、Amazon Bedrock、IBM watsonx.aiとのパートナーシップを通じてグローバルユーザーに提供される。
  • ビジネスアプリケーションで簡潔かつ要点を押さえた応答を生成するよう設計されている。

1件のコメント

 
GN⁺ 2024-07-25
Hacker Newsの意見
  • Mistral Large 2とLlama 3.1 405bモデルをテストした結果、両モデルの間に明確な優劣をつけるのは難しい
  • Claudeを使っているなら、そのまま使い続けるのがよい
  • Claudeへの要望:
    • もっと賢くなってほしい
    • より長いコンテキストウィンドウ(1M+)
    • ネイティブの音声入力とトーンの理解
    • 拒否する際の道徳的判断を減らしてほしい
    • もっと速くなってほしい
    • 出力トークン数の増加
  • モデル間の競争が激しくなっている
  • Claude 3.5 Sonnetが他のすべてのモデルを圧倒している
  • MistralやLlamaを日常的にどう使えばいいのかよくわからない
  • AIコーディングアシスタントを開発中で、さまざまなモデルを試した結果、Mistral Large 2が最も期待外れだった
  • 非商用ライセンスが残念
  • Llama 3.1 405bと競争できるが、ライセンスはより制限的
  • モデル間の差が縮まっているので、特定のユースケースに合わせてLlama 405Bをファインチューニングするほうがよいだろう
  • 品質面で大きな飛躍がない限り、現状では大差ないだろう
  • 競争が激しいのはうれしい
  • 多額の費用をかけてSOTAモデルを作っているが、GPT-4oやClaude Opusの水準にとどまっている
  • データとGPUをさらに投入するだけでは限界に達しつつある
  • ユーザー体験と「個性」が重要になってくるだろう
  • Claude Sonnetを気に入っており、他のモデルよりも鋭く感じる
  • 各段階でより多くのエネルギーと資源が必要になることを忘れてはならない
  • PyLLMsの最近のモデルベンチマーク結果を共有
    • Nemoの速度と品質に驚いた
    • Mistral Largeは良いが非常に遅い
  • Claudeモデルの中でOpusとSonnet 3.5のどちらがより高性能なのか混乱している
  • Mistral Large 2は改善された関数呼び出しと検索機能を備えている
  • 関数呼び出しの精度が約50%というのは、複雑な作業では半分が失敗するという意味なのか疑問
  • ChatGPT-4oを好んでおり、問題があるときはClaudeを使うが、より良い結果は得られていない