マーク・ザッカーバーグインタビュー - Llama 3、100億ドルモデルをオープンソース化した理由

xguru · 2024-04-21T13:19:58+09:00

Dwarkesh Patelとのインタビューで、Llama 3、AGIに向けたオープンソース化、カスタムシリコン、スケーリングにおけるエネルギー制約などについて語っており、全体のスクリプトを簡単に要約 Llama 3 MetaはオープンソースモデルのLlama 3を公開し、新バージョンのMeta AIを動かす予定 Meta AIは、最も知的で自由に使えるAIアシスタントを目指している Llama 3は、すでに公開された8B、70Bと、現在も学習中の405BサイズのDenseモデルとして提供されるマルチモーダル、マルチリンガル、より大きなコンテキストウィンドウを備えた新リリースのロードマップがあり、今年中に405Bをロールアウトする予定 405Bは現在トレーニング中で、85 MMLUに到達しており、複数のベンチマークで首位に立つと予想される 8BのLlama 3モデルは、最大サイズのLlama 2モデルとほぼ同等の性能を持つ 70Bも非常に優秀で、すでに82 MMLUに達している GPU Metaは株価が急落していた2022年に、Reelsを構築するためH100 GPUを確保した TikTokがやっていることに望むだけの速さで追いつくにはインフラが制約となっており、二度と同じ状況に陥らないよう発注を倍にした将来の大規模モデル学習に必要になるとは見込んでいたが、その当時は単にコンテンツ推薦のためだと考えていた振り返れば非常に良い判断で、それは後れを取っていたからこそできたことだった「ああ、自分は先走りすぎたな」という話ではなかった実際、私たちが何かの決定を下してそれが良い判断になるときの多くは、以前に何かを失敗していて、その過ちを繰り返したくなかったからだ AGI(Artificial General Intelligence)に向けたコーディング能力と推論能力の重要性 Metaは、モデルが実際のユースケースを解決するには、直接コーディングの質問を受けなくてもコーディング能力と推論能力が重要だと認識している最終目標はAGIを実現し、モデルが多段階の複雑な作業を実行できるようにすること AGIは、マルチモーダル、感情理解、メモリなどのさまざまな機能を段階的に追加することで達成されるだろうエネルギーと拡張性のボトルネックモデルサイズの指数関数的な進歩は続けられるかもしれないが、最終的にはエネルギーとインフラのボトルネックに突き当たる現在、多くのデータセンターは50メガワットまたは100MW程度で、大規模なデータセンターは150MW しかし今後は、300MW、500MW、あるいは1GW規模のデータセンターの建設が始まるだろう（1GW規模はまだないが、まもなく）ただし1GWともなると、モデル学習だけで原子力発電所級の規模が必要になり、このようなギガワット級クラスターの構築には厳しい許認可手続きのため数年かかることになる AI革命の重要性 AIはコンピューティングそのものの創造に匹敵するほど根本的であり、私たちの働き方を変え、新しい創造的ツールを提供するだろう宇宙的な時間尺度で見れば進歩は速いが、ボトルネックのため一夜にして知能爆発が起こることはないだろう知能が意識や主体性から切り離されうる方向へ向かっているように感じられ、それは非常に価値あるツールになりうると考えているオープンソース化と権力の均衡強力なAIが少数の手に集中することは、広く利用可能であることと同じくらい危険になりうる私たちは明確にオープンソースを強く支持しているが、自分たちの行うすべてを公開してきたわけではないオープンソース化によって、コミュニティがモデルを強化し、より均衡の取れた競争環境を確保できるただし、ある時点でその機能に質的変化が生じ、オープンソース化が適切でないと判断すればオープンソース化しない。すべては予測が非常に難しい Metaは、責任ある形で有益である限りオープンソースを志向し、クラウドプロバイダーに対してはモデル利用の料金を請求できる短期的にはモデルの悪用による現実の被害の緩和に重点を置き、長期的には実存的リスクに重点を置く 100億ドルモデルをオープンソース化した理由モバイルエコシステムが腹立たしいのは、AppleとGoogleという2つのゲートキーパー企業がいることこの2社が、何を作れるかをあなたに決めてくるまた、私たちが何かを作れば彼らが金銭面で取り分を持っていくという経済的な側面もあるが、より腹立たしいのは質的な側面だ私たちが機能を公開した、あるいは公開したかったのに、Appleが「だめです、それは公開できません」と言ってきたことが何度もあった本当に腹立たしいし、AIでもそんな世界を迎えたいのかということクローズドモデルを運営する少数の企業がAPIを支配し、何を作れるかを皆に指図するようなことがあってよいのか私たちがそうした立場に置かれないために、自分たちでモデルを構築することには価値があると言える他のどんな企業にも、私たちが何を作れるかを決められたくないオープンソースの観点から見れば、多くの開発者もまた、このような企業に何を作れるかを決められたくないはずだと思うそうなると問題は、その周囲にどんなエコシステムが構築されるかだ興味深い新しいものは何かそれは私たちの製品をどれほど改善できるのかデータベースやキャッシュシステム、あるいはアーキテクチャのように、コミュニティからより良い製品づくりに役立つ価値ある貢献を得られることは多いと考えているそうなれば、私たちが行うアプリ固有の作業は依然として差別化要因でありつつ、それ自体の重要性は相対的に大きくなくなる私たちは私たちのやるべきことをやれるオープンソースであることで、私たちとコミュニティのあらゆるシステムがより良くなるしかし、そうではない世界もありうるもしかするとモデルが製品そのものにより近づくかもしれないそうなると経済的な計算はさらに難しくなるだろう。オープンソースにするかどうかにかかわらず、自分たちを大きくコモディティ化してしまうからだただ、これまで見てきた限りでは、私たちはまだその領域にはいないように思えるモデルの収益化クラウドプロバイダーにモデルのライセンスを与えれば、かなりの収益が得られると予想しているのか Llamaは多くの点で、非常に寛容なオープンソースライセンスだただし、これを使う大規模企業には制限がある。だからこそ私たちはその制限を設けている私たちは彼らがそれを使うのを妨げようとしているわけではなく、彼らが基本的に私たちの作ったものを持っていって再販売して利益を得ようとするなら、私たちのところへ来て話してほしいと思っている Microsoft AzureやAmazonのような場合、モデルを再販売するなら、それに対する収益分配があるべきだだから、そうする前に私たちに話をしてほしいということ。それが進め方だそのためLlama-2については、基本的にすべての主要クラウド企業と契約を結んでおり、Llama-2はすべてのクラウドでホスティングサービスとして提供されている私たちがさらに大規模なモデルを公開するほど、これはより大きな話になるだろうと考えているこれが私たちの主要事業ではないが、もしそれらの企業が私たちのモデルを販売するなら、私たちもその利益を何らかの形で共有すべきだというのは合理的だと思うカスタムシリコン Metaは、大規模モデルを効率的に実行するためのカスタムシリコンを開発中 Llama-4向けではないが、まずランキングや推薦系の推論を処理できるカスタムシリコンを構築し、Reels、ニュースフィード広告などに使ってきたそれらを自社シリコンへ移せるようになったことで、より高価なNVIDIA GPUをトレーニング専用に使えるようになったいずれはシリコンを自社開発し、最初は簡単なトレーニングに使い、後には本当に大規模なモデルのトレーニングにも使えるようにしたいと考えているその間も、このプログラムはかなり順調に進んでおり、体系的に展開していて、長期的なロードマップもあると言える

(dwarkeshpatel.com)

30 ポイント投稿者 xguru 2024-04-21 | 4件のコメント | WhatsAppで共有

Dwarkesh Patelとのインタビューで、Llama 3、AGIに向けたオープンソース化、カスタムシリコン、スケーリングにおけるエネルギー制約などについて語っており、全体のスクリプトを簡単に要約

Llama 3

MetaはオープンソースモデルのLlama 3を公開し、新バージョンのMeta AIを動かす予定
Meta AIは、最も知的で自由に使えるAIアシスタントを目指している
Llama 3は、すでに公開された8B、70Bと、現在も学習中の405BサイズのDenseモデルとして提供される
マルチモーダル、マルチリンガル、より大きなコンテキストウィンドウを備えた新リリースのロードマップがあり、今年中に405Bをロールアウトする予定
405Bは現在トレーニング中で、85 MMLUに到達しており、複数のベンチマークで首位に立つと予想される
8BのLlama 3モデルは、最大サイズのLlama 2モデルとほぼ同等の性能を持つ
70Bも非常に優秀で、すでに82 MMLUに達している

GPU

Metaは株価が急落していた2022年に、Reelsを構築するためH100 GPUを確保した
TikTokがやっていることに望むだけの速さで追いつくにはインフラが制約となっており、二度と同じ状況に陥らないよう発注を倍にした
将来の大規模モデル学習に必要になるとは見込んでいたが、その当時は単にコンテンツ推薦のためだと考えていた
振り返れば非常に良い判断で、それは後れを取っていたからこそできたことだった
「ああ、自分は先走りすぎたな」という話ではなかった
実際、私たちが何かの決定を下してそれが良い判断になるときの多くは、以前に何かを失敗していて、その過ちを繰り返したくなかったからだ

AGI(Artificial General Intelligence)に向けたコーディング能力と推論能力の重要性

Metaは、モデルが実際のユースケースを解決するには、直接コーディングの質問を受けなくてもコーディング能力と推論能力が重要だと認識している
最終目標はAGIを実現し、モデルが多段階の複雑な作業を実行できるようにすること
AGIは、マルチモーダル、感情理解、メモリなどのさまざまな機能を段階的に追加することで達成されるだろう

エネルギーと拡張性のボトルネック

モデルサイズの指数関数的な進歩は続けられるかもしれないが、最終的にはエネルギーとインフラのボトルネックに突き当たる
現在、多くのデータセンターは50メガワットまたは100MW程度で、大規模なデータセンターは150MW
しかし今後は、300MW、500MW、あるいは1GW規模のデータセンターの建設が始まるだろう（1GW規模はまだないが、まもなく）
ただし1GWともなると、モデル学習だけで原子力発電所級の規模が必要になり、このようなギガワット級クラスターの構築には厳しい許認可手続きのため数年かかることになる

AI革命の重要性

AIはコンピューティングそのものの創造に匹敵するほど根本的であり、私たちの働き方を変え、新しい創造的ツールを提供するだろう
宇宙的な時間尺度で見れば進歩は速いが、ボトルネックのため一夜にして知能爆発が起こることはないだろう
知能が意識や主体性から切り離されうる方向へ向かっているように感じられ、それは非常に価値あるツールになりうると考えている

オープンソース化と権力の均衡

強力なAIが少数の手に集中することは、広く利用可能であることと同じくらい危険になりうる
私たちは明確にオープンソースを強く支持しているが、自分たちの行うすべてを公開してきたわけではない
オープンソース化によって、コミュニティがモデルを強化し、より均衡の取れた競争環境を確保できる
ただし、ある時点でその機能に質的変化が生じ、オープンソース化が適切でないと判断すればオープンソース化しない。すべては予測が非常に難しい
Metaは、責任ある形で有益である限りオープンソースを志向し、クラウドプロバイダーに対してはモデル利用の料金を請求できる
短期的にはモデルの悪用による現実の被害の緩和に重点を置き、長期的には実存的リスクに重点を置く

100億ドルモデルをオープンソース化した理由

モバイルエコシステムが腹立たしいのは、AppleとGoogleという2つのゲートキーパー企業がいること
この2社が、何を作れるかをあなたに決めてくる
また、私たちが何かを作れば彼らが金銭面で取り分を持っていくという経済的な側面もあるが、より腹立たしいのは質的な側面だ
私たちが機能を公開した、あるいは公開したかったのに、Appleが「だめです、それは公開できません」と言ってきたことが何度もあった
本当に腹立たしいし、AIでもそんな世界を迎えたいのかということ
クローズドモデルを運営する少数の企業がAPIを支配し、何を作れるかを皆に指図するようなことがあってよいのか
私たちがそうした立場に置かれないために、自分たちでモデルを構築することには価値があると言える
他のどんな企業にも、私たちが何を作れるかを決められたくない
オープンソースの観点から見れば、多くの開発者もまた、このような企業に何を作れるかを決められたくないはずだと思う
そうなると問題は、その周囲にどんなエコシステムが構築されるかだ
- 興味深い新しいものは何か
- それは私たちの製品をどれほど改善できるのか
データベースやキャッシュシステム、あるいはアーキテクチャのように、コミュニティからより良い製品づくりに役立つ価値ある貢献を得られることは多いと考えている
そうなれば、私たちが行うアプリ固有の作業は依然として差別化要因でありつつ、それ自体の重要性は相対的に大きくなくなる
私たちは私たちのやるべきことをやれる
オープンソースであることで、私たちとコミュニティのあらゆるシステムがより良くなる
しかし、そうではない世界もありうる
もしかするとモデルが製品そのものにより近づくかもしれない
そうなると経済的な計算はさらに難しくなるだろう。オープンソースにするかどうかにかかわらず、自分たちを大きくコモディティ化してしまうからだ
ただ、これまで見てきた限りでは、私たちはまだその領域にはいないように思える

モデルの収益化

クラウドプロバイダーにモデルのライセンスを与えれば、かなりの収益が得られると予想しているのか
Llamaは多くの点で、非常に寛容なオープンソースライセンスだ
ただし、これを使う大規模企業には制限がある。だからこそ私たちはその制限を設けている
私たちは彼らがそれを使うのを妨げようとしているわけではなく、彼らが基本的に私たちの作ったものを持っていって再販売して利益を得ようとするなら、私たちのところへ来て話してほしいと思っている
Microsoft AzureやAmazonのような場合、モデルを再販売するなら、それに対する収益分配があるべきだ
だから、そうする前に私たちに話をしてほしいということ。それが進め方だ
そのためLlama-2については、基本的にすべての主要クラウド企業と契約を結んでおり、Llama-2はすべてのクラウドでホスティングサービスとして提供されている
私たちがさらに大規模なモデルを公開するほど、これはより大きな話になるだろうと考えている
これが私たちの主要事業ではないが、もしそれらの企業が私たちのモデルを販売するなら、私たちもその利益を何らかの形で共有すべきだというのは合理的だと思う

カスタムシリコン

Metaは、大規模モデルを効率的に実行するためのカスタムシリコンを開発中
Llama-4向けではないが、まずランキングや推薦系の推論を処理できるカスタムシリコンを構築し、Reels、ニュースフィード広告などに使ってきた
それらを自社シリコンへ移せるようになったことで、より高価なNVIDIA GPUをトレーニング専用に使えるようになった
いずれはシリコンを自社開発し、最初は簡単なトレーニングに使い、後には本当に大規模なモデルのトレーニングにも使えるようにしたいと考えている
その間も、このプログラムはかなり順調に進んでおり、体系的に展開していて、長期的なロードマップもあると言える

4件のコメント

laeyoung 2024-04-22

「1GWなら、モデルの訓練だけでも原子力発電所規模が必要」

これからはファウンデーションモデルを学習させるのに、核開発(?)が必要ということですね。

tsboard 2024-04-22

いろいろと悩みが多そうですね。プラットフォームを握っているグーグルとアップルに対する強い反感は理解できます。

daejin 2024-04-22

「100億ドルのモデルをオープンソース化した理由」の項目は、要約された文章なのにどこか気づかされる部分がありますね。

realg 2024-04-21

良いコンテンツをありがとうございます