Meta、Llama 3.2をリリース - オープンなカスタムモデルでエッジAIとビジョンを革新する技術

(ai.meta.com)

11 ポイント投稿者 GN⁺ 2024-09-26 | 1件のコメント | WhatsAppで共有

Meta、Llama 3.2をリリース
- 小型・中型のビジョンLLM（11Bおよび90B）と、軽量なテキスト専用モデル（1Bおよび3B）を含む
- QualcommおよびMediaTekのハードウェアで利用可能で、Armプロセッサ向けに最適化
- 要約、指示追従、リライト作業に適したモデル
Llama 3.2モデルの特徴
- 11Bおよび90Bのビジョンモデルは、画像理解タスクで優れた性能を発揮
- torchtuneを使って、カスタムアプリケーション向けにファインチューニング可能
- torchchatを使ったローカル配備が可能
- Meta AIスマートアシスタントを通じて利用可能
Llama Stackの展開
- 単一ノード、オンプレミス、クラウド、オンデバイス環境でのLlamaモデル活用を簡素化
- AWS、Databricks、Dell Technologies、Fireworks、Infosys、Together AIと協力して展開
Llama 3.2モデルのダウンロード
- llama.comおよびHugging Faceからダウンロード可能
- AMD、AWS、Databricks、Dell、Google Cloud、Groq、IBM、Intel、Microsoft Azure、NVIDIA、Oracle Cloud、Snowflakeなどのパートナープラットフォーム上ですぐに開発可能
Llama 3.2の性能
- 11Bおよび90Bモデルは、文書レベルの理解、画像キャプション生成、視覚ベースのタスクに適している
- 1Bおよび3Bモデルは、多言語テキスト生成とツール呼び出し機能を提供
- ローカル実行時には即時応答と高いプライバシーを維持
モデル評価
- 150を超えるベンチマークデータセットで性能を評価
- Claude 3 HaikuおよびGPT4o-miniと競争可能な性能
ビジョンモデル
- 画像入力をサポートするための新しいモデルアーキテクチャを導入
- テキスト専用機能を維持しつつ、画像とテキストのプロンプトを組み合わせて、より深い理解と推論が可能
軽量モデル
- プルーニングおよび知識蒸留手法を用いて1Bおよび3Bモデルを開発
- ローカルで効率的に実行可能
Llama Stackの展開
- Llama Stack APIを通じて標準化されたインターフェースを提供
- 多様な環境でのLlamaモデル活用を簡素化
システムレベルの安全性
- Llama Guard 3 11B Visionをリリース
- Llama Guard 3 1Bモデルは展開コストを大幅に削減
Llama 3.2の活用
- 開発者に必要なツールとリソースを提供
- Llama 3.2とLlama Stackを使って革新的なアプリケーションを開発可能

GN⁺の要約

Llama 3.2は、エッジおよびモバイルデバイスで実行可能な軽量モデルを含む、多様なビジョンモデルとテキストモデルを提供
Qualcomm、MediaTek、Armなどとの協力により、多様なハードウェアで最適化された性能を提供
Llama Stackの展開により、開発者がさまざまな環境で容易にLlamaモデルを利用できるよう支援
Llama 3.2は高いプライバシーと即時応答を提供し、ローカルアプリケーション開発に適している
Claude 3 HaikuおよびGPT4o-miniと競える性能を備え、多様なベンチマークで優れた結果を示している

1件のコメント

GN⁺ 2024-09-26

Hacker Newsの意見

新しい1Bモデルの性能に驚いた。ダウンロードサイズは1.3GB
- コードベース全体の要約に使ってみた。完璧ではないが、小さなモデルとしては驚くべき性能を見せた
- さらに詳しいメモはこちらで確認できる
- より大きな画像モデルも試してみた。lmarena.aiで「Direct Chat」を通じて画像をアップロードできる
"The Llama jumped over the ______!" の例では、1-hotエンコーディングだと "wall" が100%の確率で正解になる
- "fence" もあり得ると言うなら不正解になる。これがモデル蒸留がうまく機能する理由だと思う
- 元のモデルはテキスト回答を通じて学習するが、子モデルは予測を模倣することで、より意味のある回答を学習する
- MetaのLlama 3.2モデルが小さいのに強力な理由を理解した。モデルの進歩に驚いている
MetaのLlamaチームのオープンさに感心した。モデルへのアクセスだけでなく、構築方法も公開している
- 将来のモデルについては分からないが、Metaのオープンな姿勢には感謝している
初心者の質問: ソフトウェアエンジニアの能力を10倍にしたようなモデルが必要で、人間の知識は不要。そういうモデルがあるのか気になる
Ollamaで3Bモデルを使ってみた。光学、生物学、Rustについての質問に対して、速くて知識量も多い
- とても印象的なモデルだ
Ollamaのブログ記事: リンク
llama3.2:3b-instruct-q8_0 モデルは 3.1 8b-q4 より性能が良い。MacBook Pro M1でより速く、結果も良い
- いくつかのなぞなぞや思考実験に対して、より良い回答を返す
- 3.1-8b のインストールを削除した
- 現在のOllamaリスト:
  - llama3.2:3b-instruct-q8_0: 3.4GB、2時間前に更新
  - gemma2:9b-instruct-q4_1: 6.0GB、3日前に更新
  - phi3.5:3.8b-mini-instruct-q8_0: 4.1GB、3日前に更新
  - mxbai-embed-large:latest: 669MB、3か月前に更新
Ollama向けのWeb UIクライアントをおすすめしてもらえるか質問している
最新のLLMベンチマークがあるリーダーボードはないか質問している
- LivebenchとLmsysは数週間遅れており、主要モデルも追加していない
- もし存在しないなら自分で作るつもりがある
3Bモデルはマルチモーダル（ノルウェー語）ではかなり良かったが、ときどき意味のない回答をたくさん返す。8Bより敏感だが、Gemma 2 2Bよりは実用的
- Pythonのリストのソートに関する質問には問題なかった
- 90Bのビジョンモデルは有用な作業を拒否する。HTMLで画像を再現したり、画像データを有用に活用したりできなかった
- 70BやOpenAIではこうした問題はなかった。拒否が多すぎる

Meta、Llama 3.2をリリース - オープンなカスタムモデルでエッジAIとビジョンを革新する技術

GN⁺の要約

関連記事

1件のコメント

Hacker Newsの意見