Google Bard、LLM性能リーダーボードでGPT-4 Turboのすぐ下となる2位に浮上
(twitter.com/JeffDean)- Google Bard(Gemini Pro)がGPT-4-0314/0613などを抜き、GPT-4 Turbo(Arena ELO 1249)のすぐ下となる2位(1215)までジャンプ
- また、HHEMリーダーボードのHallucination Rateも12%から4.9%に低下。(GPT-4/4 Turboは3.0%、GPT 3.5 Turboは3.5%)
- Bard + Gemini Ultraがどのようにリリースされるのか本当に楽しみ
1件のコメント
Hacker Newsの意見
Google Bardの性能制限: あるユーザーは、Google Bardの性能はコストのために制限されていたのではないかと疑っていた。GoogleはBardを無料で提供しており、永遠にすべてのユーザー向けに巨大なモデルを無料で動かしたいとは思っていなかったはずだ。推論コストに関する革新があったのか、あるいは競争に後れを取っているという評価にうんざりして、一時的にコストを受け入れることにしたのかもしれない。ユーザーは、Googleが公開の場で最高のモデルを動かしていることを見られるよう、サブスクリプションサービスを開始すべきだと考えている。
Bardの初期の失望と改善: Bardはリリース当初は期待外れだったが、改善しているのを見るのは良いことだ。あるユーザーの個人的な経験では、GPT 4/TurboよりもClaude 2を多く使っており、その応答スタイルや質問への答え方を好んでいる。KagiではClaude 1をGPT 4(非Turbo)と同等に評価し、Claude 2の品質を4 Turboと同水準と見なしている点は注目に値する。
Bardモデルの投票数: Bardモデルは比較的投票数が少ない。他のモデルと投票数が同程度になるまで待つつもりだ。
Bardの制限の少なさ: BardはGPT-4に比べてずっと制限が少なく、それだけでもGPT-4よりかなり良いと感じる。
無料LLMの中でのBardの有用性: すべての無料LLMの中で、Bardが最も有用だと思う。ChatGPT 3.5は比べものにならず、手抜きだ。
ベンチマーク方法への疑問: ベンチマークがどのように行われているのか気になる。ユーザーの期待や使い勝手をよりよく反映できるよう改善できるのではないかと思う。
個人的な経験との不一致: 個人的な経験では、答えが必要になるたびにGPTに戻ることになる。ほとんどの場合、Google BardよりChatGPT 3.5の方を好み、GPT 4は明らかにBardより優れていると感じる。
BardとChatGPTの比較: 個人的には、BardはChatGPTよりずっと優れていると思う。検閲されていないMistralを使いたい。
Bardの応答性と検閲の追加: 以前はリクエストに対して反応が良く、拒否もしなかった。検閲レイヤーが追加されたように見える。昔のBardが恋しいと感じる。