Meta、革新的なAIモデルアーキテクチャ「Megabyte」を公開

xguru · 2023-05-26T10:02:01+09:00

GPT-4のようなモデルが使用するトランスフォーマーアーキテクチャを超え、より効率的かつ並列的に処理できるようスケーリング可能トランスフォーマーは短いシーケンスには適しているが、高解像度画像、ポッドキャスト、コード、書籍のような100万個以上の長いトークンへの拡張は難しい Megabyteはマルチスケール・デコーダーアーキテクチャで、100万以上のシーケンスをモデリング可能入力と出力のシーケンスを個別のトークンではなく"Patch"に分割ローカルAIモデルが各パッチに対して結果を生成し、グローバルモデルがこれらのパッチを管理・調整テストの結果、15億（1.5B）パラメータのMegabyteモデルは、3億5000万（350M）パラメータで動作するトランスフォーマーモデルより40%速くシーケンスを構成テストの結果、GPT-4の32000トークン、Claudeの10万トークンを大きく上回り、1.2Mトークンまで対応可能

(artisana.ai)

14 ポイント投稿者 xguru 2023-05-26 | 2件のコメント | WhatsAppで共有

GPT-4のようなモデルが使用するトランスフォーマーアーキテクチャを超え、より効率的かつ並列的に処理できるようスケーリング可能
トランスフォーマーは短いシーケンスには適しているが、高解像度画像、ポッドキャスト、コード、書籍のような100万個以上の長いトークンへの拡張は難しい
Megabyteはマルチスケール・デコーダーアーキテクチャで、100万以上のシーケンスをモデリング可能
- 入力と出力のシーケンスを個別のトークンではなく"Patch"に分割
- ローカルAIモデルが各パッチに対して結果を生成し、グローバルモデルがこれらのパッチを管理・調整
テストの結果、15億（1.5B）パラメータのMegabyteモデルは、3億5000万（350M）パラメータで動作するトランスフォーマーモデルより40%速くシーケンスを構成
テストの結果、GPT-4の32000トークン、Claudeの10万トークンを大きく上回り、1.2Mトークンまで対応可能

2件のコメント

ninebow 2023-05-27

AIインフラおよびツール開発スタートアップのENCORDが執筆したMegabyteの紹介文を、以下のとおり許可を得て翻訳しました。 :)

https://discuss.pytorch.kr/t/…

cosine20 2023-05-27

本文にもありますが、論文リンクです: https://arxiv.org/abs/2305.07185

Meta、革新的なAIモデルアーキテクチャ「Megabyte」を公開

関連記事

2件のコメント