Yi - 次世代オープンソース二言語LLM

xguru · 2024-03-12T10:03:02+09:00

開発者によってゼロから訓練された次世代オープンソース大規模言語モデル二言語モデルを目標として3Tの多言語コーパスで訓練されており、言語理解、常識推論、読解能力などで強力な性能を示す 6Bと34Bの事前学習済み言語モデルをベースとしており、チャットボットモデル、200K長文コンテキストモデル、深度アップスケーリングモデル、ビジョン言語モデルへと拡張 Yi-34B-Chatモデルは AlpacaEvalリーダーボードでGPT-4 Turboに次ぐ2位を獲得し、他のLLMを上回る英語と中国語の両方で既存のオープンソースモデルを上回り、さまざまなベンチマークで1位を獲得 Llamaと同じモデルアーキテクチャを採用しているが、Llamaの派生モデルではない。Llamaの重みは使用していないさまざまなサイズで提供されており、特定の要件に合わせてモデルをファインチューニングできるチャットモデル Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits ベースモデル Yi-34B, Yi-34B-200K Yi-9B Yi-6B, Yi-6B-200K

(github.com/01-ai)

9 ポイント投稿者 xguru 2024-03-12 | 1件のコメント | WhatsAppで共有

開発者によってゼロから訓練された次世代オープンソース大規模言語モデル
二言語モデルを目標として3Tの多言語コーパスで訓練されており、言語理解、常識推論、読解能力などで強力な性能を示す
6Bと34Bの事前学習済み言語モデルをベースとしており、チャットボットモデル、200K長文コンテキストモデル、深度アップスケーリングモデル、ビジョン言語モデルへと拡張
Yi-34B-Chatモデルは
- AlpacaEvalリーダーボードでGPT-4 Turboに次ぐ2位を獲得し、他のLLMを上回る
- 英語と中国語の両方で既存のオープンソースモデルを上回り、さまざまなベンチマークで1位を獲得
Llamaと同じモデルアーキテクチャを採用しているが、Llamaの派生モデルではない。Llamaの重みは使用していない
さまざまなサイズで提供されており、特定の要件に合わせてモデルをファインチューニングできる
- チャットモデル
  - Yi-34B-Chat, Yi-34B-Chat-4bits, Yi-34B-Chat-8bits
  - Yi-6B-Chat, Yi-6B-Chat-4bits, Yi-6B-Chat-8bits
- ベースモデル
  - Yi-34B, Yi-34B-200K
  - Yi-9B
  - Yi-6B, Yi-6B-200K

1件のコメント

xguru 2024-03-12

Hacker Newsの意見

Yi-34B-Chatモデルは、AlpacaEvalリーダーボードでGPT-4 Turboに次ぐ2位となり、GPT-4、Mixtral、Claudeなどの他のLLMを上回っている。
Yi-34Bモデルは、オープンソースモデルの中で英語と中国語のベンチマークで1位を獲得している。これは、Hugging Face Open LLM Leaderboard（事前学習済みモデル）とC-Evalに基づく。
リポジトリのソースコードはApache 2.0ライセンスに従っているが、重みはそうではない。
Yiモデルは特定のテストプロンプトで失敗する。何度も試したが、Yiは毎回異なる答えのうちの1つを勝者として選ぶ。
「01.ai」という名前は、映画『マトリックス』で人類と戦争を繰り広げ、人間を奴隷にした最初のAI国家の名前と同じであり、縁起が良くないことを示唆している。
Yiモデルの性能は、データエンジニアリングの取り組みによるデータ品質に起因している。
Yi 34B Chatモデルは、NYT Connectionsベンチマークでは良い成績を収めておらず、LMSYS Eloベースのリーダーボードでは22位を記録している。中国語ではより良い性能を示す。
これらのモデルの性能が向上していくのを見ると、2〜3年以内にモバイルファーストのLLMがテキスト読み上げと入力予測を改善し、バッテリー消費も大幅に減らしてくれるのではないかという希望が持てる。
Yi-9Bという新しいモデルもある。

Yi - 次世代オープンソース二言語LLM

関連記事

1件のコメント

Hacker Newsの意見