Llama 2 Chat 70B、モデル評価でChatGPT（3.5）を上回る

xguru · 2023-07-31T10:17:01+09:00

Instruction-Following言語モデルを自動評価するAlpacaEval Leaderboard基準 GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37% AlpacaEvalはAlpacaFarm評価セットを用い、GPT-4が応答した内容と比較して自動評価を実施

(tatsu-lab.github.io)

10 ポイント投稿者 xguru 2023-07-31 | まだコメントはありません。 | WhatsAppで共有

Instruction-Following言語モデルを自動評価するAlpacaEval Leaderboard基準
GPT-4 95.28% > Llama Chat 70B 92.66% > Claude 2 91.36% > ChatGPT 89.37%
AlpacaEvalはAlpacaFarm評価セットを用い、GPT-4が応答した内容と比較して自動評価を実施

Llama 2 Chat 70B、モデル評価でChatGPT（3.5）を上回る

関連記事

まだコメントはありません。