- Google Bardが広告で誤った回答をしたことは今や誰もが知っているが、Bing AIもデモで完全に誤った回答をしていたのに、誰も気づかなかった
ペット向け掃除機
Pet Vacuums を検索したところ、ある製品の欠点として「吸引力が弱い、コードが短い、うるさい」と書かれていた
- 情報源として示されたhgtvの記事を見に行ったが、そのような内容はまったくない。しかもその製品は「コードレス」だった。つまり「コードのない」ハンディ掃除機
Mexico Nightlife
- Bingにメキシコシティ5日間の旅行計画を立てさせ、夜に何をするべきかを尋ねた
- Webで予約可能だというBarにはWebサイトがない
- 若者に人気だというナイトクラブには2014/16年以降レビューがまったくない。この場所に関するあらゆるものがAIの作り話のようだ
- 魅力的だというBarは、メキシコで最も古いゲイバーだった。Googleレビューが500件以上ある場所なのに、まだ評価/レビューがないと書かれていたのも印象的
- 5つのおすすめ場所のうち、正確だったのは1つだけ
Gap財務諸表の要約
- デモ中で最大のミスであり、予想外だった
- 売上総利益率(Gross Margin)が37.4%とされているが、それはUnadjusted Gross Marginだ。減損費用を調整した売上総利益率は38.7%
- 営業利益率が5.9%とされているが、文書のどこにもその数字は出てこない
- 希薄化後EPSも $1.6/$1.75 とされているが、そのような数字は文書にない。$0.71/$0.77 だ
- 2022年のガイダンスでは純売上高の増加を低い2桁台と見込むと書かれているが、実際には1桁台半ばまで落ちると予想している
- 別の文書から持ってきたか、完全に作り上げた内容だ
- Gap と Lululemon の比較も同様
- Lululemonのデータも数字が資料と一致しない
結論
- Bing AIはメディアの注目を集めることには成功したが、Google Bardよりまったく優れているわけではない
- Bingチームがこの事前デモを誤った資料で録画したというのは信じがたい
- しかもこれが成功し、みんながきちんと確認もしないままBing AI称賛の流れに乗ったことのほうがさらに驚きだ
- Bing AIは文書から正確な数字を抽出できず、出典があると言いながらも自信満々に情報を勝手に構成する
- 正確な事実を求める人は使うべきではない、まだ準備のできていない製品だ
7件のコメント
私もディープラーニングを継続して研究しながら、モデルの over-confidence 問題はかなり大きいと感じていますが、ここでも似たような問題が出ていますね。
ChatGPTでも出典を勝手に作ってしまうことがかなりひどくて、Bardに期待していたのですが……
ChatGPTはWebのぼやけたJPEGです これと関連づけて見る必要がありそうですね
本当に人間みたいなAIを作ったんですね
これはChatGPTも同じです。専門知識がないと気づけないような回答をたくさんします。
ChatGPT は OpenAI 側からインターネットに接続されていないという限界が明確に示されており、設計上、本文のような質問に対してはしばしば回答を拒否する点が違いです。
そうですね。わからないならわからないと言うべきなのに、しきりに嘘をついているようです