オープンソース言語モデルの現在

xguru · 2023-08-09T11:03:01+09:00

LLaMA 2の公開後、さらに盛り上がっているほぼすべてのオープンソースモデルのグループが、自分たちのモデルを新しいベースモデルへ更新 WizardLM、Airoboros、Hermes など現在もっとも強力なモデルはStabilityAIのStable Beluga 2 Llama2 70BモデルをOrcaスタイルのデータセットでファインチューニング ChatGPTと比較可能 Longモデル群 LLaMA 7B 16K、LLaMA 13B 16K、LLaMA 7B 32K 小さいが強力なモデル群 7Bに匹敵するほど強力な3Bパラメータモデル群まだ限界には達しておらず、さらに進むべき点が多い SlimPajama、SwiGLU、ALiBI、Variable Sequence Length、Maximal update parameterization (muP) オープンモデルがMMLUでChatGPTに勝利 : llama-2-70b-guanaco-qlora マルチターンチャット : llama2-13b-orca-8k-3319 中国モデル同士が競争中 : CodeGeex2 オープンモデルはChatGPT水準に到達したのか? まだだが、まもなく到達する可能性はある

(twitter.com/Yampeleg)

22 ポイント投稿者 xguru 2023-08-09 | 3件のコメント | WhatsAppで共有

LLaMA 2の公開後、さらに盛り上がっている
- ほぼすべてのオープンソースモデルのグループが、自分たちのモデルを新しいベースモデルへ更新
  - WizardLM、Airoboros、Hermes など
- 現在もっとも強力なモデルはStabilityAIのStable Beluga 2
  - Llama2 70BモデルをOrcaスタイルのデータセットでファインチューニング
  - ChatGPTと比較可能
Longモデル群
- LLaMA 7B 16K、LLaMA 13B 16K、LLaMA 7B 32K
小さいが強力なモデル群
- 7Bに匹敵するほど強力な3Bパラメータモデル群
- まだ限界には達しておらず、さらに進むべき点が多い
- SlimPajama、SwiGLU、ALiBI、Variable Sequence Length、Maximal update parameterization (muP)
オープンモデルがMMLUでChatGPTに勝利 : llama-2-70b-guanaco-qlora
マルチターンチャット : llama2-13b-orca-8k-3319
中国モデル同士が競争中 : CodeGeex2
オープンモデルはChatGPT水準に到達したのか?
- まだだが、まもなく到達する可能性はある

3件のコメント

botplaysdice 2023-08-10

それぞれの立場で、どうやって収益化していくべきかという悩みが大きくなってきそうですね。

geekbini 2023-08-09

いろいろなAIサービスが増えてきて、選ぶのが難しくなりますね。汎用的なAIサービスから、開発者に特化したAIサービスまでありますしね〜

kuroneko 2023-08-09

日本語モデルも発展してほしいですね。

オープンソース言語モデルの現在

関連記事

3件のコメント