1 ポイント 投稿者 GN⁺ 2024-04-19 | 1件のコメント | WhatsAppで共有
  • MetaのLlamaページでは、Llamaモデルファミリーを、デプロイのしやすさ、コスト効率、性能、大規模拡張を目指したオープンソースAIとしてまとめて紹介しており、Llama 4とLlama 3系統をあわせて扱っている
  • Llama 4 MaverickLlama 4 Scoutは、テキストとビジョントークンを一緒に事前学習するearly fusionベースのネイティブマルチモーダルモデルで、どちらも10Mトークンのコンテキストを掲げている
  • Llama 3系統は3.1・3.2・3.3に分かれ、8B・70B・405B、1B・3B・11B・90B、70Bなど、サイズやテキスト・エッジ・マルチモーダル用途別の選択肢を提供する
  • 性能比較にはMMLU Pro、GPQA Diamond、LiveCodeBench、MMMU、ChartQA、DocVQA、MMLU Multi、MTOBなどが含まれ、Llama 4 MaverickはMMLU Pro 80.5、Scoutは74.3を記録している
  • StoqueとShopifyの事例では、技術サポートの反復問い合わせ50%削減、社内満足度11%向上、トークン処理量76%増加、JSON出力ベースの計算コスト33%削減といった導入結果が示されている

Llamaモデルファミリーとバージョン別の選択肢

  • Llamaは、自社の要件に合わせて構築できるモデルファミリーであり、容易なデプロイ、コスト効率、性能、数十億ユーザー規模への拡張を目指している
  • 最新のLlamaモデルの主要な軸は、ネイティブマルチモーダル、高度な推論、長いコンテキストウィンドウである
  • モデルカードとプロンプト形式はModel overviewで確認できる
  • Llama 4: ネイティブマルチモーダルと10Mコンテキスト

    • Llama 4は、early fusionによりラベルなしのテキストとビジョンデータを一緒に事前学習するネイティブマルチモーダルモデルファミリーである
    • Llama 4 Maverickは画像とテキストの理解をサポートし、10Mトークンのコンテキストで長文タスクを処理する
    • メモリ、パーソナライズ、マルチモーダルアプリケーションが主な用途である
    • Llama 4 Scoutは、テキストと視覚知能を提供するモデルで、単一のH100 GPUでの効率性と10Mコンテキストウィンドウを打ち出している
    • 長文書分析がScoutの主要な用途として示されている
    • 詳細はLlama 4モデル文書で提供されている
  • Llama 3: サイズと用途別のモデルファミリー

    • Llama 3は、ファインチューニング、蒸留、どこでもデプロイ可能なオープンソースAIモデルファミリーである
    • Llama 3.3は70Bで提供される多言語オープンソース大規模言語モデルであり、405B級の性能と品質をより低コストで体験できると案内されている
    • 合成データ生成のようなテキストベース用途に適しており、詳細はLlama 3.3モデル文書で確認できる
    • Llama 3.2は、エッジ用途向けの柔軟でコスト効率の高いモデルファミリーである
      • 1Bと3Bは軽量でコスト効率が高く、どこでも実行できる
      • 11Bと90Bは高解像度画像を推論し、テキストを出力できるマルチモーダルモデルである
      • 詳細はLlama 3.2モデル文書で提供されている
    • Llama 3.1は柔軟性と制御性のためのオープン基盤モデルで、8B・70B・405Bのサイズで提供される
    • 一般知識、調整可能性、数学、ツール使用、多言語翻訳能力を含み、テキスト要約、多言語エージェント、コーディング用途に使われる
    • 詳細はLlama 3.1モデル文書で確認できる

性能指標と実導入の結果

  • Llama 4のベンチマークと評価条件

    • Llama 4の能力は、ネイティブマルチモーダル、長いコンテキスト、画像グラウンディングとして整理されている
    • すべてのLlama 4モデルは、ラベルなしのテキストとビジョントークンを大量に一緒に事前学習できるよう、early fusionを活用している
    • ベンチマークではLlama 4 MaverickとLlama 4 Scoutを比較している
      • 推論: MMLU ProはMaverick 80.5、Scout 74.3で、GPQA DiamondはMaverick 69.8、Scout 57.2である
      • コーディング: LiveCodeBenchはMaverick 43.4、Scout 32.8である
      • マルチモーダル画像: MMMUはMaverick 73.4、Scout 69.4で、ChartQAはMaverick 90.0、Scout 88.8、DocVQAは両者とも94.4である
      • 多言語: MMLU MultiはMaverick 84.6、Scout 74.3である
      • 長コンテキスト: MTOB Half BookはMaverick 54.0 / 46.4、Scout 42.2 / 36.6で、MTOB Full BookはMaverick 50.8 / 46.7、Scout 39.7 / 36.3である
      • 効率: 100万トークンあたりのコストは、どちらも$0.19–$0.49と示されている
    • 方法論と注記によれば、Llamaの結果はtemperature 0の0-shot評価であり、majority votingや並列テスト時の計算資源は使っていない
    • GPQA DiamondやLiveCodeBenchのように分散が大きいベンチマークは、不確実性を減らすため複数の生成結果を平均している
    • 長コンテキストの専門評価は一般的なモデルでは従来あまり報告されておらず、内部実行結果を共有している
    • Llama 4 Maverickの$0.19/Mtokコストは、分散推論を前提とした3:1 blended推定値であり、単一ホストでは$0.30–$0.49/Mtokで提供可能と見込まれている
  • StoqueとShopifyの活用事例

    • StoqueはLlamaによって社内インテリジェンスを変革し、チームがより速くインサイトを見つけ、摩擦を減らし、大規模でもより効率的に働けるようにした
    • 技術サポートの反復問い合わせは50%減少し、管理およびサポート作業の完了は30%増加した
    • 社内ユーザー満足度は11%向上した
    • ShopifyはLlamaを商品ページ生成、コンテンツのローカライズ、サポート自動化に利用している
    • 以前のモデルよりトークン処理量が76%高く、意図検出でMacro-F1精度97.7%を記録した
    • JSON出力により計算コストを33%削減した
    • 生成AIのガードレールは、システムレベルの保護によって潜在的リスクを事前に特定・緩和し、開発者が生成AIをより責任ある形でデプロイできるよう支援する役割を担う

1件のコメント

 
GN⁺ 2024-04-19
Hacker News の意見
  • 参考になるリンク: https://ai.meta.com/blog/meta-llama-3/, https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi..., https://twitter.com/karpathy/status/1781028605709234613

  • Meta はコンソールも公開した: https://www.meta.ai/
    Meta 製品群全体への Meta AI 統合も発表した: https://about.fb.com/news/2024/04/meta-ai-assistant-built-wi...
    ただし GPT-4-Turbo や Claude Opus との比較を入れていないところを見ると、最前線のモデルとは距離がありそうで、LLM Arenaで性能がどう出るかを見る必要がある

    • 最高峰モデルと比較していないのは、「同格」比較をしようとしたためと思われる。70B モデルは Sonnet と同じクラスで、Sonnet に勝つなら Opus や GPT-4 にも多くのタスクで近づける
      大きな差が出るのは、非常に難しい推論ベンチマークに限られる可能性が高い。Llama は重みが公開されているため、Opus と違ってファインチューニングや LoRA が多く出てくるはず
    • Llama-3-400Bが Claude 3 Opus などに匹敵するなら、敗者は Nvidia の株価、OpenAI と Sam、Google で、勝者は AMD、Intel、大学、そして世界中の開発者かもしれない
      国家や大企業が自社モデル学習用 GPU に資金を注ぎ込むより Llama-3/Llama-4 を使うようになれば、GPU 成長期待が抑えられ、OpenAI は 1000億ドル調達の根拠が弱まり、Google の AI 優位性もぼやける。AMD と Intel は Nvidia の学習用 GPU に追いつくより、AI 推論チップに集中できる
    • ログインなしで使えるようにしているのも意外。Meta には期待していなかった点
    • Meta は、より競争力のある大型派生モデルをまだ学習中だと明らかにした
      400B を超える最大級のモデルがまだ学習中で、今後数か月以内にマルチモーダル、多言語会話、はるかに長いコンテキストウィンドウ、全般的により強い能力を備えた複数のモデルをリリースする予定だという
    • 「Meta AI isn't available yet in your country」と表示されるが、どこで使えるのか気になる。ノルウェーではこう表示される
  • 公開ベンチマークは大まかな指標としては有用だが、開発者は自分のユースケースに合わせたカスタムベンチマークを回すべき
    Replicate が Llama 3 API を素早く作っており https://replicate.com/blog/run-llama-3-with-an-api、promptfoo https://github.com/typpo/promptfooで Llama 3、Mixtral、GPT、Claude などを比較できる。たとえば Replicate の meta/meta-llama-3-8b-instructmeta/meta-llama-3-70b-instruct、OpenAI gpt-4-turbo、Anthropic claude-3-opus-20240229 などを同じプロンプトで評価可能
    まだテスト中だが、ランダムなプログラミング質問のセットでは Llama 3 8B がかなり良さそうに見える。ollama も Llama 3 8B をサポートしたので、ollama:chat:llama3 でローカル評価がしやすくなった

    • オンラインにすでに丸ごと出回っている可能性が高い問題でテストするのは、非常に慎重になるべき
      良いテストは、ランダムな a、b、c に対して二次方程式を解くような、単純だが実際の適用を見る必要がある問題。どのモデルも知っていそうなアルゴリズムなのに間違え、その後は検証したふりをして誤答を繰り返すこともある。LLAMA 3 も何度か誤りを指摘した後、「正確な解を見つけ、複数の方法で検証した」と言ったが、実際の解は最初と同じく間違っており、検証の試みもなかった
    • 語彙まわりの問題で応答の末尾に assistant が付く現象があったが、今は動くはず
      ollama run llama3 で実行でき、複数の量子化版とテキスト/70B モデルもアップロード中
  • Llama 3 70B が有名な LMSYS Chatbot Arena のリーダーボードに5位でデビューし、Claude 2 Sonnet、Bard(Gemini Pro)、Command R+ と同率で、Claude 2 Haiku や以前の GPT-4 バージョン群より上にいる
    まだスコアの不確実性が大きいため正確な順位は時間が経たないと分からず、変わる可能性もある。Llama 3 8B は12位で、Claude 1、Mixtral 8x22B、Qwen-1.5-72B と同率。最新順位は https://arena.lmsys.org/で見られる
    英語専用リーダーボードでは Llama 3 70B が GPT-4 や Claude Opus とともに最上位圏にとどまっており、さらに印象的。安全性チューニングが以前ほど強くなくなり、プロンプト拒否が減った影響かもしれないが、それでも実質的に有用な改善。このペースなら 400B モデルは事実上支配的になる可能性が高い

  • 中国語ラップを生成させてみたところ、かなり良いものを作ったが、完了直後に応答が削除され、「まだ中国語を理解できないが取り組んでおり、中国語で会話できるようになったらメッセージを送る」という文言に置き換わった
    他の言語も同様に、非英語生成はできるが、終わると応答が消され、同じ案内文に置き換えられる

    • 一定のトークン数が生成された後に応答品質を評価する後処理器があり、基準以下だと応答を巻き戻しているように見える
    • ローカルで実行すればよい。ローカル版にはそうした保護機構がない
    • イタリア語では動作するが、常に「非英語能力はまだ改善中なので誤りがあるかもしれず、英語で手伝うときに最も有用だ」という免責文が付く
    • このバグが12時間後も続いているのは変だ
  • ブログには良い詳細情報が多い: https://ai.meta.com/blog/meta-llama-3/
    400B版も登場予定で、GPT-4やClaude Opusよりかなり良くなりそうに見える。分散化と公開ソフトウェアが勝つ流れだ

    • AnthropicのClaude 3の数値 https://www.anthropic.com/news/claude-3-family と比べると、Llama 400Bの数値は少し低く見える
      もちろんベンチマークされたのは中間チェックポイントで、学習はまだ進行中だ
    • そんなことはまったく言っていない。むしろ公開されているベンチマークはGPT-4やOpusより低い
      ベンチマークを盲信すべきではないが、GPT-4やOpusを上回るという主張はない。中間チェックポイントなので、今後上回る可能性はある
    • 400BモデルがGPT-4よりはるかに優れているという内容がどこにあるのか分からない
    • 分散化とは言いにくい。複数の場所で実行はできるだろうが、配布元は1つだけだ
      それにオープンソースでもない
    • オープンソースでも分散化でもない
  • Zuck、Yann、そしてMetaチームがオープンなアプローチを取り、モデル重み、トークナイザー、学習データ情報などを共有してくれていることに本当に感謝している
    彼らこそが、llama.cppのようなプロジェクトを通じて、コンシューマー向けハードウェア上でかなりまともなモデルをローカル実行し、検閲や統制を避けられるようにした公開研究の爆発的発展の最大の原動力だ
    OpenAIやAnthropicの統制に引っかかるようなリクエストをしたいわけではないが、こうした強力な技術が壁の向こうにあり、ゲートキーパーが使い方を統制する状況は嫌だ。オープン性を信じる人や会社は多いが、数千億ドル規模の資本と持続可能なキャッシュフロー、数十億ドル相当のGPUを持つところがこうするなら、影響ははるかに大きい。Zuckはこの道を選ぶ必要はなかったし、HBS/McKinsey式のプロ経営者がFacebookを運営していたなら、ここまで開放していなかった可能性が高い。AI安全リスクという名目で王冠の宝石を中央集権的なAPIの背後に隠さなかったおかげで、全員が大きく得をしている

    • Zuckのインタビューを見ると、今でも心の中ではエンジニアなのだと分かる。他の大手テック企業は、そうしたリーダーシップを失ってしまった
    • まだ39歳で、会社を運営するエネルギーがさらに満ちているように見えるのは良いことだ。情熱的な創業者がいる点は、他の大手テック企業に比べたMetaの大きな強みだと思う
    • 善意だけでやっているわけではない可能性が高い。モデルをコモディティ化して補完財を売る戦略である可能性が高い
      Joel Spolskyが以前話していた戦略だが、Metaが具体的にどんなAIモデルの補完財を売れるのかははっきりしない。それでも、何らかの形で戦略的な選択であることは明らかに見える
    • 創業者CEOだからそうなのだ。キャリア型MBAたちとは情熱や本気度が違う
      Zuckについて批判すべき点は多いが、ミッションへの本気度の欠如はその1つではない
    • MetaはOpen Compute Projectも主導していた。Googleのオープンソースへの献身に惹かれて入社したが、エクサスケールの解決策を作る中でその文化が続かなかったことに大きく失望した
      Metaがここでその松明を受け継いでいるのはうれしいし、続いてほしい
  • 有料のChatGPT PlusのGPT-4との直接比較がなかったので、数値を突き合わせてみた
    Llama 3 8B / Llama 3 70B / GPT-4基準で、MMLUは68.4 / 82.0 / 86.5、GPQAは34.2 / 39.5 / 49.1、MATHは30.0 / 50.4 / 72.2、HumanEvalは62.2 / 81.7 / 87.6、DROPは58.4 / 79.7 / 85.4だ
    ほとんどの人が使っている無料版ChatGPTは、GPT-4よりはるかに弱いGPT-3.5ベースだ。最新のGPT-3.5の包括的な評価値は見つけられなかったが、Llama 3 70Bなら余裕で上回り、8Bもかなり近いところまで行くと思う。この程度のモデルをローカルで実行し、修正できるというのは非常に面白い。GPT-4の数値は https://github.com/openai/simple-evalsgpt-4-turbo-2024-04-09 (chatgpt) 基準だ

    • https://ai.meta.com/blog/meta-llama-3/ の下部には、進行中の400Bモデルの結果もある。まだ完全には到達していないようだ
      Llama 3 400B Base / Instruct基準で、MMLU 84.8 / 86.1、GPQA - / 48.0、MATH - / 57.8、HumanEval - / 84.1、DROP 83.5 / - だ
    • GPT-4が1.8Tパラメータだという点を考えると驚きだ
    • ファインチューニング済み、またはマージされたモデルを待っている。多くの開発者がLlama 2ベースで基本モデルよりはるかに良いモデルを作ったので、新バージョンでも同じような流れを期待している
    • Mixtral 8x22Bと比較した資料がすでにあるのか気になる。世の中は本当に速く動いている
    • HumanEvalスコアが高いので特に期待している。まだ400Bモデルも、CodeLlamaチューニングも出る前だ
      IDE内でコーディング用に試してみたい人がいれば、コーディング補助ツール https://www.double.bot にLlama 3 70Bを追加しておいた
  • Zuckのインタビューも出ている: https://twitter.com/dwarkesh_sp/status/1780990840179187715

    • 5分あたりに興味深い部分があり、Zuckは数年前、TikTokに対抗するReelsのレコメンドエンジンを作るためにH100 GPUを大量に買ったという
      当時の必要量の2倍を安全策として確保した結果、偶然にもこの規模のLLMを学習できるGPU容量を持つ数少ない企業の1つになった
    • 1〜2年のMMAが、それまでのメディアトレーニングよりもカリスマ性にずっと役立ったようだ。最近のインタビューではずっと自然に見える
    • Dwarkeshのポッドキャストは全体的に本当に良い
  • モデルカードには、Llama 2 を含む他の Llama モデルとのベンチマーク結果があります: https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md...
    Llama 2 と比べた Llama 3 の性能向上は劇的で、印象的です。Llama 2 13B と比較してもそうですし、コンテキストウィンドウが 8k に倍増したことも、多くの新しい機会を開くはずです

    • 指示チューニング済みモデル基準では、Llama 3 8B は Llama 2 70B よりもかなり優れています
    • 8k のコンテキスト長が Mixtral 8x22B の 64k コンテキストよりはるかに短いのは残念です
      それでも公開された性能指標は印象的で、Meta がこれらのモデルを公開したことは称賛に値します