RedPajama、HELMベンチマークで公開済みの他の7B LLMモデルを上回る性能を持つ7Bモデルを公開

ninebow · 2023-06-07T01:01:15+09:00

RedPajama-INCITE-7Bモデル3種を紹介 HELMベンチマーク基準で、既存の公開済み7Bモデル群より優れたRedPajama-INCITE-7B-Instructモデルを含む、7Bの3種モデルを公開 RedPajama-INCITE-7B-Instructモデル既存モデルのInstructチューニング版 P3（BigScience）およびNatural Instruction（AI2）を使用して学習 HELMベンチマークで最も高いスコアを獲得したオープンモデルで、さまざまなタスクに最適 RedPajama-INCITE-7B-Chatモデル Dolly2やOASSTなどのオープンソースデータのみを使用して学習 ➡️ 商用利用可能（+ Chatモデルだけでなく、RedPajama-INCITEモデル群はすべて商用利用可能）ファインチューニング用の学習スクリプトを含めて公開 :arrow_forward: OpenChatKitですぐに利用可能 RedPajama.cpp（LLaMA.cppのfork）をサポート - CPUで実行可能 MLC LLMなどのプロジェクトと協力 ➡️ 今後さまざまなハードウェア上で動作可能にする予定 RedPajama-INCITE-7B-Baseモデル EleutherAIのPythiaモデルと同一のアーキテクチャを使用し、RedPajama-Data-1Tデータセットで学習 🤗HuggingFaceのtogethercomputer/RedPajama-INCITE-7B-Baseからダウンロード可能 HELMベンチマーク基準でLLaMA-7Bより4点、Falcon-7B/MPT-7Bより約1.3点低い性能 logprobを使って正解/不正解間の確率差を計算するタスクでのみ性能が低い回答を直接生成して品質を測定するタスクでは同等の性能を示す LM Harnessの結果もlogprobを使用するため、同様に低い性能を示す今後の計画（RedPajama2）以下のような計画で、2〜3Tトークンの新しいデータセットRedPajama2を開発中: DoReMiのような技術を使ってデータ混合のバランスを取る予定多様性と規模を補うため、Eleuther.aiのPile v1やCarperAIのPile v2などのデータを使用より多くのCommonCrawlデータを処理 LLaMA論文のアプローチ以外のさまざまなデータ重複除去戦略を探索 150B以上のコードトークンを追加して、コーディングと推論（reasoning）タスクの品質を改善

(together.xyz)

15 ポイント投稿者 ninebow 2023-06-07 | 3件のコメント | WhatsAppで共有

RedPajama-INCITE-7Bモデル3種を紹介

HELMベンチマーク基準で、既存の公開済み7Bモデル群より優れたRedPajama-INCITE-7B-Instructモデルを含む、7Bの3種モデルを公開

RedPajama-INCITE-7B-Instructモデル

既存モデルのInstructチューニング版
P3（BigScience）およびNatural Instruction（AI2）を使用して学習
HELMベンチマークで最も高いスコアを獲得したオープンモデルで、さまざまなタスクに最適

RedPajama-INCITE-7B-Chatモデル

Dolly2やOASSTなどのオープンソースデータのみを使用して学習 ➡️ 商用利用可能
- （+ Chatモデルだけでなく、RedPajama-INCITEモデル群はすべて商用利用可能）
ファインチューニング用の学習スクリプトを含めて公開 :arrow_forward: OpenChatKitですぐに利用可能
RedPajama.cpp（LLaMA.cppのfork）をサポート - CPUで実行可能
MLC LLMなどのプロジェクトと協力 ➡️ 今後さまざまなハードウェア上で動作可能にする予定

RedPajama-INCITE-7B-Baseモデル

EleutherAIのPythiaモデルと同一のアーキテクチャを使用し、RedPajama-Data-1Tデータセットで学習
🤗HuggingFaceのtogethercomputer/RedPajama-INCITE-7B-Baseからダウンロード可能
HELMベンチマーク基準でLLaMA-7Bより4点、Falcon-7B/MPT-7Bより約1.3点低い性能
- logprobを使って正解/不正解間の確率差を計算するタスクでのみ性能が低い
- 回答を直接生成して品質を測定するタスクでは同等の性能を示す
- LM Harnessの結果もlogprobを使用するため、同様に低い性能を示す

今後の計画（RedPajama2）

以下のような計画で、2〜3Tトークンの新しいデータセットRedPajama2を開発中:
- DoReMiのような技術を使ってデータ混合のバランスを取る予定
- 多様性と規模を補うため、Eleuther.aiのPile v1やCarperAIのPile v2などのデータを使用
- より多くのCommonCrawlデータを処理
- LLaMA論文のアプローチ以外のさまざまなデータ重複除去戦略を探索
- 150B以上のコードトークンを追加して、コーディングと推論（reasoning）タスクの品質を改善

3件のコメント

ninebow 2023-06-07

あっ.. タイトルに誤字がありましたね…
@xguruさん、もしタイトルのHEMLをHELMに変更していただけないでしょうか…

moderator 2023-06-08

修正しておきました！