Mistral NeMoをリリース

(mistral.ai)

6 ポイント投稿者 GN⁺ 2024-07-19 | 1件のコメント | WhatsAppで共有

NVIDIAと協力して開発された120億パラメータモデル Mistral NeMo をリリース
最大128kトークンの大きなコンテキストウィンドウを提供
推論、世界知識、コーディング精度が同クラス最高水準
標準アーキテクチャを採用しており、Mistral 7Bを使用するシステムに容易に適用可能
研究者と企業による採用を促進するため、Apache 2.0ライセンスの下で事前学習済みのベースおよび命令調整チェックポイントを公開
量子化を意識した学習により、性能劣化なしでFP8推論が可能

多言語モデル

グローバルな多言語アプリケーション向けに設計
関数呼び出し向けに学習されており、大きなコンテキストウィンドウを持つ
英語、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、中国語、日本語、韓国語、アラビア語、ヒンディー語で特に強力
すべての言語のユーザーに最先端のAIモデルを提供することを目指す

Tekken、より効率的なトークナイザー

Tiktokenベースの新しいトークナイザー Tekken を使用
100以上の言語において、自然言語テキストとソースコードをSentencePieceトークナイザーより効率的に圧縮
ソースコード、中国語、イタリア語、フランス語、ドイツ語、スペイン語、ロシア語で約30%高効率
韓国語とアラビア語ではそれぞれ2倍、3倍高効率
Llama 3トークナイザーと比較して、約85%の言語でより優れた圧縮性能

インストラクション・ファインチューニング

Mistral NeMoは高度なファインチューニングおよびアラインメント段階を経ている
Mistral 7Bと比べて、正確に命令へ従い、推論し、マルチターン対話を処理し、コードを生成する能力が大幅に優れている

リンク

ベースモデルおよび命令モデルの重みはHuggingFaceでホスティングされている
mistral-inferenceでMistral NeMoを試せ、mistral-finetuneで調整可能
NVIDIA NIM推論マイクロサービスとしてパッケージ化されており、ai.nvidia.comで利用可能

1件のコメント

GN⁺ 2024-07-19

Hacker Newsの意見

Mistral NeMoはNVIDIAと協力して開発された12Bモデルで、最大128kトークンの大きなコンテキストウィンドウを提供する
- 標準アーキテクチャを採用しており使いやすく、Mistral 7Bを使用するシステムに容易に置き換え可能である
- Apache 2.0ライセンスの下で事前学習済みチェックポイントを提供し、研究者と企業の採用を促進する
- 量子化認識により、性能低下なしでFP8推論を可能にする
Mistral NeMoは新しいトークナイザーTekkenを使用しており、これは100以上の言語で学習され、SentencePieceよりも効率的にテキストとソースコードを圧縮する
- Byte-pair encodingの方がより効率的なエンコーディング方式であることが証明されているにもかかわらず、なぜSentencePieceに戻ったのかという疑問が出ている
NVIDIAブログにもMistral NeMoに関する投稿がある
- NVIDIA NIM推論マイクロサービスとしてパッケージ化されており、NVIDIA TensorRT-LLMエンジンを通じて性能最適化された推論を提供する
- NVIDIA L40S、NVIDIA GeForce RTX 4090、NVIDIA RTX 4500 GPUのメモリに合わせて設計されている
- Megatron-LMを使用し、3,072基のH100 80GB Tensor Core GPUで学習された
大規模モデルが急速にリリースされており、これは企業がスケーラブルなプロセスを拡張する方法を見つけたことを意味する
- モデルをHuggingFaceに公開することがビジネスになるのかという疑問が出ている
- モデルファイルのダウンロードは約25GBで、8fp量子化モデルである
NVIDIA Enterpriseに加入して"NIM"パッケージ版を試す体験が不便だという意見がある
- モデルファイルを自由にダウンロードできる方がよいという意見がある
- NVIDIAがハードウェア独占を持っているにもかかわらず、複雑な手続きを要求することへの不満がある
Mistralがオープンソースの発展を真剣に考えるなら、モデル学習に使われたコーパスを共有すべきだという意見がある
- GGUF版を発売日に用意しない理由への疑問が出ている
多言語で学習することが"クロスオーバー"をもたらすのかという質問がある
- ドイツ語で学習した内容が英語プロンプトに応答する際に活用されるのか気になっている
オープンソースの生成AIモデルを無料で公開するビジネスモデルがよく理解できない
- 3072 H100sを使って学習したモデルを無料で提供する理由への疑問がある

Mistral NeMoをリリース

多言語モデル

Tekken、より効率的なトークナイザー

インストラクション・ファインチューニング

リンク

関連記事

1件のコメント

Hacker Newsの意見