Google Bard、LLM性能リーダーボードでGPT-4 Turboのすぐ下となる2位に浮上

xguru · 2024-01-28T09:41:59+09:00

Google Bard（Gemini Pro）がGPT-4-0314/0613などを抜き、GPT-4 Turbo（Arena ELO 1249）のすぐ下となる2位（1215）までジャンプまた、HHEMリーダーボードのHallucination Rateも12%から4.9%に低下。（GPT-4/4 Turboは3.0%、GPT 3.5 Turboは3.5%） Bard + Gemini Ultraがどのようにリリースされるのか本当に楽しみ

(twitter.com/JeffDean)

7 ポイント投稿者 xguru 2024-01-28 | 1件のコメント | WhatsAppで共有

Google Bard（Gemini Pro）がGPT-4-0314/0613などを抜き、GPT-4 Turbo（Arena ELO 1249）のすぐ下となる2位（1215）までジャンプ
また、HHEMリーダーボードのHallucination Rateも12%から4.9%に低下。（GPT-4/4 Turboは3.0%、GPT 3.5 Turboは3.5%）
Bard + Gemini Ultraがどのようにリリースされるのか本当に楽しみ

1件のコメント

xguru 2024-01-28

Hacker Newsの意見

Google Bardの性能制限: あるユーザーは、Google Bardの性能はコストのために制限されていたのではないかと疑っていた。GoogleはBardを無料で提供しており、永遠にすべてのユーザー向けに巨大なモデルを無料で動かしたいとは思っていなかったはずだ。推論コストに関する革新があったのか、あるいは競争に後れを取っているという評価にうんざりして、一時的にコストを受け入れることにしたのかもしれない。ユーザーは、Googleが公開の場で最高のモデルを動かしていることを見られるよう、サブスクリプションサービスを開始すべきだと考えている。

Jeff Deanのツイートによれば、「Gemini Pro-scale model」という新しいモデルが公開され、独立したlmsysリーダーボードで2位になったという。「Pro-scale」が何を意味するのか、またすべてのユーザーがすでにこのモデルを使っているのかははっきりしない。
Bardの初期の失望と改善: Bardはリリース当初は期待外れだったが、改善しているのを見るのは良いことだ。あるユーザーの個人的な経験では、GPT 4/TurboよりもClaude 2を多く使っており、その応答スタイルや質問への答え方を好んでいる。KagiではClaude 1をGPT 4（非Turbo）と同等に評価し、Claude 2の品質を4 Turboと同水準と見なしている点は注目に値する。
Bardモデルの投票数: Bardモデルは比較的投票数が少ない。他のモデルと投票数が同程度になるまで待つつもりだ。
Bardの制限の少なさ: BardはGPT-4に比べてずっと制限が少なく、それだけでもGPT-4よりかなり良いと感じる。
無料LLMの中でのBardの有用性: すべての無料LLMの中で、Bardが最も有用だと思う。ChatGPT 3.5は比べものにならず、手抜きだ。
ベンチマーク方法への疑問: ベンチマークがどのように行われているのか気になる。ユーザーの期待や使い勝手をよりよく反映できるよう改善できるのではないかと思う。

Jeff Deanのツイートを見た後でBardを使ってみた。GPT-4と比べると、まだ期待外れだ。質問から外れているのに、そのことに気づいていない。グラフの作成を依頼したとき、「ここにグラフがあります」と3回も答えたが、実際にはグラフはなく、最後にはその機能がないと言った。
個人的な経験との不一致: 個人的な経験では、答えが必要になるたびにGPTに戻ることになる。ほとんどの場合、Google BardよりChatGPT 3.5の方を好み、GPT 4は明らかにBardより優れていると感じる。
BardとChatGPTの比較: 個人的には、BardはChatGPTよりずっと優れていると思う。検閲されていないMistralを使いたい。
Bardの応答性と検閲の追加: 以前はリクエストに対して反応が良く、拒否もしなかった。検閲レイヤーが追加されたように見える。昔のBardが恋しいと感じる。

Google Bard、LLM性能リーダーボードでGPT-4 Turboのすぐ下となる2位に浮上

関連記事

1件のコメント

Hacker Newsの意見