Eagle 7B - Transformerを超えたモデル

(blog.rwkv.com)

6 ポイント投稿者 GN⁺ 2024-01-30 | 2件のコメント | WhatsAppで共有

RWKV-v5アーキテクチャをベースにした7.52Bパラメータモデル
世界で最も環境に優しい7Bモデルで、トークンあたりのコストが低い
100以上の言語で1.1兆トークンを用いて学習
多言語ベンチマークで、すべての7Bクラスモデルを上回る
英語評価ではFalcon (1.5T)、LLaMA2 (2T)、Mistral (>2T?)級の性能に近い
ごく小規模な命令チューニングのみを行ったファウンデーションモデルであり、さまざまなユースケース向けのファインチューニングが必要
Attentionを必要としないTransformer
Apache 2.0ライセンスで、個人・商用を問わず制限なく利用可能

多言語性能の詳細

多言語性能は、xLAMBDA、xStoryCloze、xWinograd、xCopaなど、合計23言語を対象に評価された。
これらのベンチマークは、各言語における常識推論を扱う。
RWKV v4からv5アーキテクチャへの移行により、多言語性能が大きく向上した。
多言語ベンチマークが不足しているため、学習対象である100以上の言語のうち、残る75以上の言語に対するモデルの言語性能を直接評価することは難しい。

英語性能の詳細

英語性能は、常識推論と世界知識を扱う12の個別ベンチマークを通じて測定された。
RWKV v4からv5アーキテクチャへの移行により、英語性能が大きく向上した。
v5モデルは、与えられたトークン学習量に対して期待されるTransformerの性能水準に合致している。
追加で1兆トークンを学習することで、LLaMA2水準に到達し、Mistral水準に近づくと期待される。

優れたデータセット + スケーラブルなアーキテクチャ: それは誰にとっても必要なのか?

3000億トークン時点のチェックポイントは、pythia-6.9bと同程度の性能を示す。
RWKV-v4アーキテクチャでの以前の実験と同様に、RWKVのような線形Transformerは、学習トークン数が同じであればTransformerと同程度の性能水準までスケールする。
モデル評価性能において、正確なアーキテクチャよりもデータのほうが重要なのかという問いが繰り返し提起されている。
RWKVベースのアーキテクチャとTransformerモデルのCUDA計算コストを比較する際には、線形と二次のスケーラビリティの違いが重要になる。

すべての人のための包括的なAI構築 - 英語だけではない

RWKVの多言語アプローチに対する一般的なフィードバックは、英語評価スコアに影響し、線形Transformerの成長を遅らせるというものだ。
しかしRWKVチームはこのアプローチを変更する予定はなく、英語だけの世界ではなく、世界全体のためのAIを構築したいと考えている。
2023年時点で、世界人口のうち英語を話すのは17%にすぎない。
上位25言語以上をサポートすることで、約40億人、すなわち世界人口の50%をカバーできる。
RWKVチームは多言語データセットを拡張し、対応言語を増やすことで、世界全体の100%をカバーしたいと考えている。

今後の計画

今回のリリースは、現時点で最も強力な線形Transformerを示すものだ。
LLaMA2やMistralはまだ超えていないが、RWKV-v5モデルアーキテクチャが、同程度のトークン数でTransformer性能と同様にスケールすることを示している。
2024年2月にはRWKV v5に関する更新論文を発表し、3月にはv5 Eagle 2TモデルをベースにしたMoEモデルと、RWKV-v6 "Finch" 1.5B、3Bワールドモデルをリリースする予定。

謝辞

この基盤モデルの学習に必要な計算資源の大半を提供したStabilityAIに感謝する。
論文執筆の過程で惜しみない支援を行ったEleutherAIに感謝する。
RWKVプロジェクトを支援しホスティングしているLinux Foundation AI & Dataグループに感謝する。

GN⁺の意見:

Eagle 7Bは、多様な言語をサポートし、効率的なコストで高い性能を提供する線形Transformerモデルである。
このモデルは、AIのアクセシビリティを高め、環境への影響を減らすことに貢献しうる。
RWKVチームは、AIが世界中のすべての人を支援し、あらゆる言語を包含する方向へ技術を発展させたいという明確なビジョンを持っている。

2件のコメント

cosine20 2024-01-31

昨夜少しデモを試してみましたが、かなり速く、結果も良好でした。韓国語と日本語も自然に認識して回答していました。

GN⁺ 2024-01-30

Hacker Newsの意見

代替LLM（大規模言語モデル）アーキテクチャの進展が見られて興味深いが、この記事はモデルの品質だけを扱っていて物足りない
- 記事が唐突に終わっており、新しいアーキテクチャを採用しようという動機づけが不足している
- 性能とコンテキストサイズに関する議論が必要
- 記事ではコンテキストへの言及がなく、残念
- RWKV-4のチャートを再利用しているが、そのチャートが何を示しているのか明確でない
モデルアーキテクチャはTransformer、Mamba、SSM、RWKVなどであること自体は重要ではなく、学習データセットの影響のほうが重要
- 言語データは人間の経験の貯蔵庫であり、そこからAIが多様な能力を獲得することは、知能が脳だけに限定されないことを示唆している
RWKV-v5 Eagle 7BがApache 2.0ライセンスでリリースされ、個人用途でも商用用途でも制限なく使える
- チームがテストと採用に向けて適切な動機づけを設定したのは前向きに評価できる
現在は主にデコーダ専用の次トークン予測モデルに焦点が当てられている
- BERTやT5のエンコーダは、検索や分類タスク向けの埋め込み生成において依然として有用
- 埋め込みのユースケース向けに、より優れた事前学習アーキテクチャに関する研究がさらに必要
RWKVモデルが一般的なTransformerモデルと比べてどうなのか、ベンチマークをどう解釈すべきかについて説明を求める声
- Mistral 7B/mistral-tinyに近い性能に見える
必要なRAM容量と、CPUのみを使う場合のトークン処理速度に関する情報がはっきりしない
プロジェクトメンバーがRedditで質問に回答しているので、参考にするとよいという提案
- 該当するRedditユーザーへのリンクが共有されている
RWKVモデルを試したいが待ちたくないなら、rwkv-demo-api.recursal.aiの利用を推奨
2024年3月をベースにしたMoEモデル v5 Eagle 2Tへの期待を表明
- 性能と環境/トークンコストのバランスに期待
- スカンディナビア言語の改善にも期待しているが、結果は見てみる必要がある
- 学習データの価値と、最適な学習のための内容構造およびバランスに対する認識が真の革命をもたらすだろう
RWKV-4の実験では推論速度は速いが、トークン化速度が非常に遅いことを経験
- RWKV-5に関する具体的なガイダンスが必要

Eagle 7B - Transformerを超えたモデル

多言語性能の詳細

英語性能の詳細

優れたデータセット + スケーラブルなアーキテクチャ: それは誰にとっても必要なのか?

すべての人のための包括的なAI構築 - 英語だけではない

今後の計画

謝辞

GN⁺の意見:

関連記事

2件のコメント

Hacker Newsの意見