16 ポイント 投稿者 xguru 2024-04-19 | まだコメントはありません。 | WhatsAppで共有
  • 8B、70B(ベースモデルとファインチューニング済みモデルの両方)を公開。いずれも各モデルクラスで強力な性能を示している。
  • 400Bモデルはまだ学習中だが、すでにGPT-4の領域に近づいている(例: MMLU 84.8 vs. GPT-4の86.5)

トークナイザー

  • トークン数が32K(Llama 2)から128K(Llama 3)へと4倍に増加
  • より多くのトークンにより、シーケンス長をより圧縮できる。15%少ないトークン数が示されており、下流タスクの性能も向上

アーキテクチャ

  • Llama 2では大きなモデルのみがGrouped Query Attention(GQA)を使用していたが、現在は最小の8Bモデルを含むすべてのモデルがGQAを使用
  • GQAはAttentionのキー/バリューに対するパラメータ共有方式で、推論時のKVキャッシュのサイズを削減する
  • これは複雑さを減らして最適化する、良く歓迎すべき修正点

シーケンス長

  • コンテキストウィンドウの最大トークン数が4096(Llama 2)および2048(Llama 1)から8192へ増加
  • この増加は歓迎されるものの、最新の標準(例: GPT-4は128K)と比べるとかなり小さい
  • 多くの人がこの軸ではさらに大きな改善を期待していたはず。後でファインチューニングによって可能になるかもしれない(?)

学習データ

  • Llama 2は2Tトークンで学習され、Llama 3では15Tの学習データセットへと増加
  • データ品質、4倍多いコードトークン、30以上の言語にわたる5%の非英語トークンに多くの注意が払われている
  • 5%は非英語:英語の混合比としてはかなり低く、このモデルはほぼ英語モデルといえる。しかし0より大きいのはかなり良い

スケーリング則

  • 15Tは8Bパラメータのような「小さな」モデルを学習するには非常に大きなデータセットであり、これは通常行われない新しく非常に歓迎すべきこと
  • Chinchillaの「compute optimal」ポイントで8Bモデルを学習させるには、約200Bトークン程度を学習させればよい
  • モデル性能に対する「bang-for-the-buck」だけに関心があるなら、これで十分
  • しかしMetaはその点を約75倍超えて学習させており、これは異例だが個人的には非常に歓迎すべきことだと思う
  • 私たちは皆、とても小さく扱いやすく、推論しやすい非常に有能なモデルを得ることになる
  • Metaは、この時点でもモデルが標準的な意味で「収束」しているようには見えないとも述べている
  • つまり、私たちが日常的に扱うLLMは、常に100〜1000倍以上のさらに長い学習が不足しており、収束点には近づいていない
  • 今後も、より長く学習され、はるかに小さいモデルを公開する流れが続いてほしい

システム

  • Llama 3は、16K GPUで観測されたスループット400 TFLOPSで学習されたと述べられている
  • 明示はされていないが、NVIDIAのマーケティング資料で1,979 TFLOPSをうたうH100 fp16だと仮定
  • しかし、彼らの小さなアスタリスク(*with sparsity)が大きな仕事をしていることは周知であり、実際のTFLOPSを得るにはこの数字を2で割って約990にする必要がある
  • (なぜSparsityがFLOPSとして計算されるのだろうか?)
  • いずれにせよ400/990 ~= 40%の利用率で、あれだけ多くのGPUとしてはかなり悪くない!
  • この規模でここに到達するには、本当に堅実なエンジニアリングが大量に必要

まとめ

  • Llama 3は非常に有能に見えるモデルリリースであり、とても歓迎すべきもの
  • 基本に忠実で、堅実なシステムとデータ作業に多くの時間を割き、長期学習モデルの限界を探っている
  • 400Bモデルにも大いに期待しており、これはGPT-4級の最初のオープンソースリリースになる可能性がある
  • 多くの人が、より長いコンテキスト長を求めるだろうと思う

まだコメントはありません。

まだコメントはありません。