Meta Llama 3に対するAndrej Karpathyの評価

xguru · 2024-04-19T09:17:00+09:00

8B、70B（ベースモデルとファインチューニング済みモデルの両方）を公開。いずれも各モデルクラスで強力な性能を示している。 400Bモデルはまだ学習中だが、すでにGPT-4の領域に近づいている（例: MMLU 84.8 vs. GPT-4の86.5）トークナイザートークン数が32K（Llama 2）から128K（Llama 3）へと4倍に増加より多くのトークンにより、シーケンス長をより圧縮できる。15%少ないトークン数が示されており、下流タスクの性能も向上アーキテクチャ Llama 2では大きなモデルのみがGrouped Query Attention（GQA）を使用していたが、現在は最小の8Bモデルを含むすべてのモデルがGQAを使用 GQAはAttentionのキー/バリューに対するパラメータ共有方式で、推論時のKVキャッシュのサイズを削減するこれは複雑さを減らして最適化する、良く歓迎すべき修正点シーケンス長コンテキストウィンドウの最大トークン数が4096（Llama 2）および2048（Llama 1）から8192へ増加この増加は歓迎されるものの、最新の標準（例: GPT-4は128K）と比べるとかなり小さい多くの人がこの軸ではさらに大きな改善を期待していたはず。後でファインチューニングによって可能になるかもしれない（?）学習データ Llama 2は2Tトークンで学習され、Llama 3では15Tの学習データセットへと増加データ品質、4倍多いコードトークン、30以上の言語にわたる5%の非英語トークンに多くの注意が払われている 5%は非英語:英語の混合比としてはかなり低く、このモデルはほぼ英語モデルといえる。しかし0より大きいのはかなり良いスケーリング則 15Tは8Bパラメータのような「小さな」モデルを学習するには非常に大きなデータセットであり、これは通常行われない新しく非常に歓迎すべきこと Chinchillaの「compute optimal」ポイントで8Bモデルを学習させるには、約200Bトークン程度を学習させればよいモデル性能に対する「bang-for-the-buck」だけに関心があるなら、これで十分しかしMetaはその点を約75倍超えて学習させており、これは異例だが個人的には非常に歓迎すべきことだと思う私たちは皆、とても小さく扱いやすく、推論しやすい非常に有能なモデルを得ることになる Metaは、この時点でもモデルが標準的な意味で「収束」しているようには見えないとも述べているつまり、私たちが日常的に扱うLLMは、常に100〜1000倍以上のさらに長い学習が不足しており、収束点には近づいていない今後も、より長く学習され、はるかに小さいモデルを公開する流れが続いてほしいシステム Llama 3は、16K GPUで観測されたスループット400 TFLOPSで学習されたと述べられている明示はされていないが、NVIDIAのマーケティング資料で1,979 TFLOPSをうたうH100 fp16だと仮定しかし、彼らの小さなアスタリスク（*with sparsity）が大きな仕事をしていることは周知であり、実際のTFLOPSを得るにはこの数字を2で割って約990にする必要がある（なぜSparsityがFLOPSとして計算されるのだろうか？）いずれにせよ400/990 ~= 40%の利用率で、あれだけ多くのGPUとしてはかなり悪くない！この規模でここに到達するには、本当に堅実なエンジニアリングが大量に必要まとめ Llama 3は非常に有能に見えるモデルリリースであり、とても歓迎すべきもの基本に忠実で、堅実なシステムとデータ作業に多くの時間を割き、長期学習モデルの限界を探っている 400Bモデルにも大いに期待しており、これはGPT-4級の最初のオープンソースリリースになる可能性がある多くの人が、より長いコンテキスト長を求めるだろうと思う

(twitter.com/karpathy)

16 ポイント投稿者 xguru 2024-04-19 | まだコメントはありません。 | WhatsAppで共有

8B、70B（ベースモデルとファインチューニング済みモデルの両方）を公開。いずれも各モデルクラスで強力な性能を示している。
400Bモデルはまだ学習中だが、すでにGPT-4の領域に近づいている（例: MMLU 84.8 vs. GPT-4の86.5）

トークナイザー

トークン数が32K（Llama 2）から128K（Llama 3）へと4倍に増加
より多くのトークンにより、シーケンス長をより圧縮できる。15%少ないトークン数が示されており、下流タスクの性能も向上

アーキテクチャ

Llama 2では大きなモデルのみがGrouped Query Attention（GQA）を使用していたが、現在は最小の8Bモデルを含むすべてのモデルがGQAを使用
GQAはAttentionのキー/バリューに対するパラメータ共有方式で、推論時のKVキャッシュのサイズを削減する
これは複雑さを減らして最適化する、良く歓迎すべき修正点

シーケンス長

コンテキストウィンドウの最大トークン数が4096（Llama 2）および2048（Llama 1）から8192へ増加
この増加は歓迎されるものの、最新の標準（例: GPT-4は128K）と比べるとかなり小さい
多くの人がこの軸ではさらに大きな改善を期待していたはず。後でファインチューニングによって可能になるかもしれない（?）

学習データ

Llama 2は2Tトークンで学習され、Llama 3では15Tの学習データセットへと増加
データ品質、4倍多いコードトークン、30以上の言語にわたる5%の非英語トークンに多くの注意が払われている
5%は非英語:英語の混合比としてはかなり低く、このモデルはほぼ英語モデルといえる。しかし0より大きいのはかなり良い

スケーリング則

15Tは8Bパラメータのような「小さな」モデルを学習するには非常に大きなデータセットであり、これは通常行われない新しく非常に歓迎すべきこと
Chinchillaの「compute optimal」ポイントで8Bモデルを学習させるには、約200Bトークン程度を学習させればよい
モデル性能に対する「bang-for-the-buck」だけに関心があるなら、これで十分
しかしMetaはその点を約75倍超えて学習させており、これは異例だが個人的には非常に歓迎すべきことだと思う
私たちは皆、とても小さく扱いやすく、推論しやすい非常に有能なモデルを得ることになる
Metaは、この時点でもモデルが標準的な意味で「収束」しているようには見えないとも述べている
つまり、私たちが日常的に扱うLLMは、常に100〜1000倍以上のさらに長い学習が不足しており、収束点には近づいていない
今後も、より長く学習され、はるかに小さいモデルを公開する流れが続いてほしい

システム

Llama 3は、16K GPUで観測されたスループット400 TFLOPSで学習されたと述べられている
明示はされていないが、NVIDIAのマーケティング資料で1,979 TFLOPSをうたうH100 fp16だと仮定
しかし、彼らの小さなアスタリスク（*with sparsity）が大きな仕事をしていることは周知であり、実際のTFLOPSを得るにはこの数字を2で割って約990にする必要がある
（なぜSparsityがFLOPSとして計算されるのだろうか？）
いずれにせよ400/990 ~= 40%の利用率で、あれだけ多くのGPUとしてはかなり悪くない！
この規模でここに到達するには、本当に堅実なエンジニアリングが大量に必要

まとめ

Llama 3は非常に有能に見えるモデルリリースであり、とても歓迎すべきもの
基本に忠実で、堅実なシステムとデータ作業に多くの時間を割き、長期学習モデルの限界を探っている
400Bモデルにも大いに期待しており、これはGPT-4級の最初のオープンソースリリースになる可能性がある
多くの人が、より長いコンテキスト長を求めるだろうと思う