Meta、革新的なAIモデルアーキテクチャ「Megabyte」を公開
(artisana.ai)- GPT-4のようなモデルが使用するトランスフォーマーアーキテクチャを超え、より効率的かつ並列的に処理できるようスケーリング可能
- トランスフォーマーは短いシーケンスには適しているが、高解像度画像、ポッドキャスト、コード、書籍のような100万個以上の長いトークンへの拡張は難しい
- Megabyteはマルチスケール・デコーダーアーキテクチャで、100万以上のシーケンスをモデリング可能
- 入力と出力のシーケンスを個別のトークンではなく"Patch"に分割
- ローカルAIモデルが各パッチに対して結果を生成し、グローバルモデルがこれらのパッチを管理・調整
- テストの結果、15億(1.5B)パラメータのMegabyteモデルは、3億5000万(350M)パラメータで動作するトランスフォーマーモデルより40%速くシーケンスを構成
- テストの結果、GPT-4の32000トークン、Claudeの10万トークンを大きく上回り、1.2Mトークンまで対応可能
2件のコメント
AIインフラおよびツール開発スタートアップのENCORDが執筆したMegabyteの紹介文を、以下のとおり許可を得て翻訳しました。 :)
https://discuss.pytorch.kr/t/…
本文にもありますが、論文リンクです: https://arxiv.org/abs/2305.07185