- RWKV-v5アーキテクチャをベースにした7.52Bパラメータモデル
- 世界で最も環境に優しい7Bモデルで、トークンあたりのコストが低い
- 100以上の言語で1.1兆トークンを用いて学習
- 多言語ベンチマークで、すべての7Bクラスモデルを上回る
- 英語評価ではFalcon (1.5T)、LLaMA2 (2T)、Mistral (>2T?)級の性能に近い
- ごく小規模な命令チューニングのみを行ったファウンデーションモデルであり、さまざまなユースケース向けのファインチューニングが必要
- Attentionを必要としないTransformer
- Apache 2.0ライセンスで、個人・商用を問わず制限なく利用可能
多言語性能の詳細
- 多言語性能は、xLAMBDA、xStoryCloze、xWinograd、xCopaなど、合計23言語を対象に評価された。
- これらのベンチマークは、各言語における常識推論を扱う。
- RWKV v4からv5アーキテクチャへの移行により、多言語性能が大きく向上した。
- 多言語ベンチマークが不足しているため、学習対象である100以上の言語のうち、残る75以上の言語に対するモデルの言語性能を直接評価することは難しい。
英語性能の詳細
- 英語性能は、常識推論と世界知識を扱う12の個別ベンチマークを通じて測定された。
- RWKV v4からv5アーキテクチャへの移行により、英語性能が大きく向上した。
- v5モデルは、与えられたトークン学習量に対して期待されるTransformerの性能水準に合致している。
- 追加で1兆トークンを学習することで、LLaMA2水準に到達し、Mistral水準に近づくと期待される。
優れたデータセット + スケーラブルなアーキテクチャ: それは誰にとっても必要なのか?
- 3000億トークン時点のチェックポイントは、pythia-6.9bと同程度の性能を示す。
- RWKV-v4アーキテクチャでの以前の実験と同様に、RWKVのような線形Transformerは、学習トークン数が同じであればTransformerと同程度の性能水準までスケールする。
- モデル評価性能において、正確なアーキテクチャよりもデータのほうが重要なのかという問いが繰り返し提起されている。
- RWKVベースのアーキテクチャとTransformerモデルのCUDA計算コストを比較する際には、線形と二次のスケーラビリティの違いが重要になる。
すべての人のための包括的なAI構築 - 英語だけではない
- RWKVの多言語アプローチに対する一般的なフィードバックは、英語評価スコアに影響し、線形Transformerの成長を遅らせるというものだ。
- しかしRWKVチームはこのアプローチを変更する予定はなく、英語だけの世界ではなく、世界全体のためのAIを構築したいと考えている。
- 2023年時点で、世界人口のうち英語を話すのは17%にすぎない。
- 上位25言語以上をサポートすることで、約40億人、すなわち世界人口の50%をカバーできる。
- RWKVチームは多言語データセットを拡張し、対応言語を増やすことで、世界全体の100%をカバーしたいと考えている。
今後の計画
- 今回のリリースは、現時点で最も強力な線形Transformerを示すものだ。
- LLaMA2やMistralはまだ超えていないが、RWKV-v5モデルアーキテクチャが、同程度のトークン数でTransformer性能と同様にスケールすることを示している。
- 2024年2月にはRWKV v5に関する更新論文を発表し、3月にはv5 Eagle 2TモデルをベースにしたMoEモデルと、RWKV-v6 "Finch" 1.5B、3Bワールドモデルをリリースする予定。
謝辞
- この基盤モデルの学習に必要な計算資源の大半を提供したStabilityAIに感謝する。
- 論文執筆の過程で惜しみない支援を行ったEleutherAIに感謝する。
- RWKVプロジェクトを支援しホスティングしているLinux Foundation AI & Dataグループに感謝する。
GN⁺の意見:
- Eagle 7Bは、多様な言語をサポートし、効率的なコストで高い性能を提供する線形Transformerモデルである。
- このモデルは、AIのアクセシビリティを高め、環境への影響を減らすことに貢献しうる。
- RWKVチームは、AIが世界中のすべての人を支援し、あらゆる言語を包含する方向へ技術を発展させたいという明確なビジョンを持っている。
2件のコメント
昨夜少しデモを試してみましたが、かなり速く、結果も良好でした。韓国語と日本語も自然に認識して回答していました。
Hacker Newsの意見
代替LLM(大規模言語モデル)アーキテクチャの進展が見られて興味深いが、この記事はモデルの品質だけを扱っていて物足りない
モデルアーキテクチャはTransformer、Mamba、SSM、RWKVなどであること自体は重要ではなく、学習データセットの影響のほうが重要
RWKV-v5 Eagle 7BがApache 2.0ライセンスでリリースされ、個人用途でも商用用途でも制限なく使える
現在は主にデコーダ専用の次トークン予測モデルに焦点が当てられている
RWKVモデルが一般的なTransformerモデルと比べてどうなのか、ベンチマークをどう解釈すべきかについて説明を求める声
必要なRAM容量と、CPUのみを使う場合のトークン処理速度に関する情報がはっきりしない
プロジェクトメンバーがRedditで質問に回答しているので、参考にするとよいという提案
RWKVモデルを試したいが待ちたくないなら、rwkv-demo-api.recursal.aiの利用を推奨
2024年3月をベースにしたMoEモデル v5 Eagle 2Tへの期待を表明
RWKV-4の実験では推論速度は速いが、トークン化速度が非常に遅いことを経験