Google、Bing、Marginalia、Kagi、Mwmbl、ChatGPTの検索品質比較

(danluu.com)

2 ポイント投稿者 GN⁺ 2024-01-01 | 1件のコメント | WhatsAppで共有

単純な検索語6つだけでも、GoogleやBingのような大手検索エンジンの上位結果にSEOスパム、詐欺的な広告、不正確な回答が頻繁に混ざることが明らかになった
比較対象はGoogle、Bing、Marginalia、Kagi、Mwmbl、ChatGPT 3.5で、広告ブロッカーをオフにした状態で、バンクーバー（BC州）基準のローカライズ結果まで含めて調べた
Marginaliaは完全な答えを返せないことも多かったが、詐欺的な結果は相対的に少なく、ChatGPTは一部の検索では良かったものの、回答拒否やハルシネーションも見られた
GoogleとBingは、YouTubeダウンロード、広告ブロッカー、冬の雪予報のように一般ユーザーがよく探す検索で、詐欺的サイトや広告色の強い結果を上位に表示した
良い結果を得るには、サイト指定、キーワードの組み合わせ、追加検索のような熟練者のコツが必要になっており、これは「ただ検索すればよい」という昔の検索体験から遠ざかっている

比較方法と評価基準

比較対象はGoogle、Bing、Marginalia、Kagi、Mwmbl、ChatGPT 3.5
検索語は3種類から選んだ
- 非専門ユーザーが新しいコンピューターを設定するときに使いそうな検索語
- 高校生にも理解できるが答えを探すのが難しい技術・科学の質問
- 記事を書いている途中で実際に必要だった地域情報検索
使用したクエリは次の6つ
- download youtube videos
- ad blocker
- download firefox
- Why do wider tires have better grip?
- Why do they keep making cpu transistors smaller?
- vancouver snow forecast winter 2023
評価はTerrible、Very Bad、Bad、Ok、Good、Greatに分け、詐欺的な結果を大きな減点要素と見なした
検索は大半を2023年11月に、一部を12月中旬に実施した
検索エンジンのクエリはCookieを削除した新しいシークレットウィンドウで実行し、Kagiはログアウト検索を許可していないため新規アカウントを使用した
位置はバンクーバー（BC州）で、一部の検索エンジンではローカライズされたランキングが適用されたように見える

全体結果

Marginaliaは時にまずまずだが完全ではない答えを返し、答えられない質問には結果がないか、明らかに無関係な結果を出す傾向に近かった
- 詐欺的な結果の比率は他の検索エンジンより低かったが、この実験でも一部に詐欺的な結果はあった
Mwmblはユーザーが検索結果の順位を直接編集できる
- あるクエリは編集後にGreatと見なせる結果になったが、ベンチマークに合わせて手動で最適化した結果なのでスコアには反映しない
Googleは新しい結果や最近のYouTube動画を強く好む傾向を示した
- ad blocker検索では内容の薄いYouTube動画が表示され、その動画は最初の結果が「Google公式」であるかのように誤って述べていた
ChatGPTはある事例では従来型検索エンジンよりはるかに良く、別の事例ではまずまず、または回答を回避し、複数のクエリでハルシネーションを起こした
GoogleとBingは一部のクエリで、ChatGPTよりも多くのハルシネーション的・操作的な結果を返したと評価された
- 雪予報検索では、広告収益目的の偽予報サイトや、不要な除雪サービス契約へ誘導する地域業者の結果が出た

クエリ別結果

download youtube videos
- 理想的な結果はyt-dlpまたはyt-dlpの薄い無料GUIラッパーで、youtube-dlのように更新頻度の低いプロジェクトも許容できる結果と見なした
- Googleには良い結果がなく、上位の通常結果の大半はbadwareのインストール誘導、詐欺的な広告、有料代替品、広告目的のリスト記事、YouTubeのブログスパム的動画だった
- Bingにも良い結果はなく、badwareと思われる拡張機能のインストール誘導、偽のダウンロードボタン、有料ダウンローダー広告が多数あった
- Marginaliaの最初の結果はyoutube-dl関連の古い回答で、yt-dlpのインストール・使い方のブログ記事も含み、最も良い結果と評価された
- KagiはNorton SafeWebを前面に出したダウンロードサイト、scam pop-up、古いyoutube-dlのarchive.orgリンクなどで埋まっていた
- Mwmblは一部の有料ソフトウェア、youtube-dlのインストール記事、GUIラッパー関連動画、詐欺的または低品質なサイトが混在していた
- ChatGPTはYouTube Premiumなしでダウンロードしないよう答え、具体的なサードパーティアプリ・Webサイトの推薦は拒否した
ad blocker
- 理想的な結果はuBlock Originであり、少なくともデフォルトで広告をブロックする非詐欺的な広告ブロッカーを期待した
- GoogleにはuBlock Originへのリンクがなく、Acceptable Adsプログラムに参加して一部広告をデフォルトで許可する広告ブロッカーと、詐欺的に見える広告が混ざっていた
- Bingは上部広告がAvast Secure Browser、TOTAL Adblock、偽レビューサイトなどへつながり、広告表示が非常に微妙で通常の検索結果と誤認される可能性がある
- Marginaliaは3番目・4番目の結果がuBlock Originを推奨し、8番目の結果がuBlock Originそのもので、直接的な詐欺的結果が少なく良い方だった
- MwmblはGhostery、有料広告ブロッカー、広告だらけのサイト、Hacker Newsコメント内のuBlock Origin推奨などが混ざっていた
- KagiはAdblock PlusとAdBlock系の結果が上位を占め、TOTAL Adblockのインストールを促すポップアップがある記事も含んでいた
- ChatGPTはHow do I install the best ad blocker?に対して最初の推奨としてuBlock Originを提案し、このクエリでは最良の結果と評価された
download firefox
- 理想的な結果はFirefoxのダウンロードリンクであり、偽・詐欺的リンクがないこと
- Bing、Mwmbl、KagiはFirefoxダウンロード関連リンクを提供し、Greatと評価された
- ChatGPTは技術的には不正確なインストール案内を出したが、正しいサイトへ行くよう案内しており、ユーザーがFirefoxをダウンロードできる可能性が高いと見なした
- MarginaliaはFirefoxの直接ダウンロードリンクはなく、Firefox関連の間接リンクだけだったためOkと評価された
- Googleは上位リンクの大半が正常なダウンロードリンクだったが、7番目と10番目の結果にbadwareインストールやクレジットカード情報要求につながる詐欺的リンクがあり、Badと評価された
Why do wider tires have better grip?
- 正しい答えは、幅広タイヤが乾いた路面での制動とラップタイムに与える影響、濡れた路面での制動・ハイドロプレーニング、ホイール幅とタイヤ幅を別々に変えたときの違い、タイヤ空気圧の変化まで説明すべきだと見なした
- Google、Bing、Kagiは表面積、接地面、動的荷重のような不完全または誤った説明と広告的ページを多数返した
- ChatGPTは文法は良いが、インターネットコメント風のもっともらしいハルシネーション回答を提供した
- Marginaliaは元の質問には結果がなく、疑問符を除くと誤った結果を1つだけ返した
- Mwmblは無関係なNYT記事や自転車タイヤ関連の記事を返した
- どの検索エンジンも正しい説明を提供できず、Marginaliaは誤った結果や詐欺的リンクが少ないため相対的に良いと評価された
Why do they keep making cpu transistors smaller?
- 期待した答えは、トランジスタが小さくなるとなぜ速くなり、電力・キャパシタンスとどのような関係があるのかを直感的に説明する資料だった
- GoogleはナレッジカードとStack Exchange、Quoraの結果を返したが、大半は「小さいほど速い」といった部分回答か、別の質問への答えだった
- Bingは上部のナレッジカードの一部に追加検索へつながり得る部分回答があり、Okと評価された
- KagiはReddit、Stack Exchange、Quora、Metafilterの結果を返し、10番目のリンクからDennard Scalingなどへ進める可能性はあるが、直接の答えとしては弱かった
- Marginaliaは結果がなく、Mwmblは「Why do artists keep making holiday albums?」という無関係なVox記事を1つだけ返した
- ChatGPTは性能向上のような非回答を出し、追加説明を求めると回路伝搬・相互接続について誤解を招く答えを出した
vancouver snow forecast winter 2023
- 良い結果は、Environment Canadaによる2023年冬の複数月の雪予報のように、バンクーバーの雪は平年よりかなり少なく、気温は高くなるという予報だった
- Googleは地域の除雪業者による偽っぽい予報をナレッジカードとして表示し、そのページは大量の雪と寒さを予測して除雪サービスの購入へ誘導していた
- Bingの上位関連結果に見えるページは、日別の「冬の嵐」確率を操作したようなSEO偽予報サイトだった
- KagiはBingの偽予報サイトを上位4件に表示し、無関係なニュースやSEOスパムも含んでいた
- Marginaliaは結果がなく、Mwmblは2022年の停電記事、フィラデルフィアの雪予報、オハイオ川の凍結、オレゴン地域ニュースなど無関係な結果を返した
- ChatGPTは直接答えず、天気Webサイトやアプリを見るよう述べ、ある時は誤ってUser\nが付いたプロンプトでEnvironment Canadaを提案した

広告、SEO、ハルシネーションが混ざる仕組み

検索エンジン結果には、意図的に操作された結果と一般的なSEO広告ファームページが一緒に混ざっていた
雪予報検索では、広告収益目的の偽予報サイトや、除雪サービスの購入を誘導する偽予報が出た
広告ブロッカー検索では、客観的レビューのように見えるが特定の広告ブロッカーのインストールへ誘導する偽レビューサイトがあった
YouTubeダウンロード検索では、無料のオープンソースツールの代わりに、有料ソフトウェア、badware疑いの拡張機能、偽ダウンロードボタンが繰り返し現れた
従来型検索エコシステムは、ユーザーにとって最善の結果より、ソフトウェアサプライチェーンに最も利益をもたらす結果を前に置くよう強く誘導されていると見られる
クリックやエンゲージメントのようなランキングシグナルは、ユーザーが良い結果を見分けられるほど熟練している場合にだけ、良い結果を強化できる

広告ベース検索のインセンティブ問題

Sergey BrinとLarry Pageの元のPageRank論文は、広告ベース検索には良い検索結果の提供とのインセンティブ不一致があると見ていた
論文は、広告収益が検索エンジンを広告主側へ偏らせ、消費者の必要から遠ざける可能性があると説明している
現在のGoogleとBingは、広告を実際の検索結果のように見せる方向へ変わっており、ユーザーは広告とオーガニック検索結果を区別できない場合が多いと見られる
順位評価はページに表示される順序を基準にした
- オーガニック検索結果の上に広告が4つある場合、広告が1〜4位、オーガニック結果が5位として計算される
cellular phone検索例では、Googleの上位結果はGoogle Store Pixel 7、AmazonのAndroid phone、Wikipedia、商業的結果とSEOスパムで埋まっていた
PageRank論文で良い上位結果として言及された「The Effect of Cellular Phone Use Upon Driver Attention」は、商業的結果の山の下に埋もれて見えなかった

小規模検索エンジンとメタ検索の可能性

Marginaliaが1人開発の検索エンジンでありながら一部クエリで相対的に良い結果を出した点は興味深い事例
Googleを置き換える主流検索エンジンを作ることは依然として難しい
- リアルタイムに変化するTwitter、ニュースなどのインデックス
- 基本レベル以上のNLP
- ユーザーが検索エンジンに期待する機能の増加
逆に、少数ユーザー向けの有用な検索エンジンは以前より作りやすくなったと見られる
- Googleの結果が多くのクエリで昔より悪くなったため
Googleは、人気の低いページや正確に覚えている文字列検索でも、目的のページを返せない場合が増えたという
- かつてはほとんどなかったことが2015年にはまれに起き、現在はかなりの割合で起きているという
複数の小規模検索エンジンの組み合わせが多くのユーザーにGoogleより良い結果を与えられるかは、すでに数年前から「そうだ」に近いと見られる
Mwmblのユーザーキュレーション方式は、追加調整なしでは難しいと見られる
- RSS検索の上位にblogspamを追加したユーザー編集の事例があり、簡単に見つかる通報方法がなかった
1996年式のMetacrawlerのように複数の検索エンジン、ChatGPT、Bardなどを集約する方式は、法的・ライセンス費用の問題を除けば技術的にはかなり良い可能性がある

付録：その他の検索エンジン

DuckDuckGoは過去にBingと非常によく似ており、今回もBing広告を取り除くと以前ほどではないが似ていて、別表に入れる価値は大きくないと見た
- 熟練者がクエリをうまく書けばGoogle同様にまずまずだが、この比較の素朴なクエリでは良くない
wiby.meはMarginaliaのように比較的曖昧な結果を探すための検索エンジン
- 4つのクエリで興味深く非常に異なる結果を出したが、関連性のある結果は返せなかった
searchmysite.netはいくつかのクエリである程度関連する結果を出したが、Marginaliaほど関連性は高くなかった
- Google、Bing、Kagiより詐欺や広告的ページははるかに少なかった
indieweb-search.jamesg.blogはすべてのクエリでサーバーエラーとなり処理されなかった
Teclisは検索ボックスは残っているがbot abuseのため閉鎖されており、フロントページにはトラフィックの99.9%がボットだったという案内がある
- Teclisの結果はKagiのNon-commercial WebレンズとAPI経由で利用できると案内されている

付録：良い答えを見つけるための回り道

幅広タイヤのグリップに関する質問では、一般的な検索エンジンは良い答えを返せず、検索過程はYouTube検索、コメント、自動車関連書籍、類似書籍の探索、特定モデル名検索へと続いた
Carroll SmithのTune To Winは、広い接地面が熱の蓄積を減らし、より狭い温度範囲で機能する柔らかいゴム設計を可能にすると述べているが、観察される現象を十分に説明していないと見られる
KummerのThe Unified Theory of Tire and Rubber Friction、Hays and BrowneのThe Physics of Tire Traction、Milliken and MillikenのRace Car Vehicle Dynamicsも十分な説明には届いていない
GuiggianiのThe Science of Vehicle Dynamicsは、関連要因をどう考えモデル化するかにより近かった
最後の章のbrush modelを手がかりにbrush model tire widthを検索してPacejkaのTire and Vehicle Dynamicsへつながり、この本が幅広タイヤのグリップと必要なタイヤ・車両ダイナミクスのモデリングを説明し始めていると見られる
良い検索結果を得るには、検索語、サイト、追加検索を組み合わせる熟練者のコツが必要であり、すべてのユーザーがそうしたコツを持っているわけではない

Googleナレッジカードの事例

Googleナレッジカードの結果は、簡単に見つかる答えやばかげた質問でも不正確な場合が多かったという
oc2 gemini lengthはボートの長さではなく、記事に出てきた赤ちゃんの身長20″を返した
busy beaver numberは電話番号(604) 375-2754を返した
Feedly revenueは非公開企業の売上・利益推定値を操作しているようなサイトに基づいて$5.2M/yrを返した
boston up118s dimensionsはピアノのサイズを5826298 x 5826899 x 582697 inとして返した
Intel number of engineersはエンジニア数ではなく電話番号を返した
fraser river current speedは不正確な97 to 129 kilometers per hourを返した
futura c-4 surfski weightは別のsurfskiの重量である39 poundsを返した

批判への回答

この比較はpeer-reviewed studyではなく、いくつかのクエリに対する主観的評価を含む
情報検索分野の論文経験とbest paper awardを根拠に、学術論文だからといって自動的により厳密とは限らないと見ている
Kagiユーザーからの反論の一部は、GitHub結果を固定したり、GitHubで良い結果が出るクエリだけを実行した事例だったという
タイヤ、トランジスタ、雪予報クエリで良い結果を実際に得たという反論はまだなかったという
検索品質をめぐる議論の核心は熟練者の検索テクニックではなく、単純な検索をする一般ユーザーが詐欺的広告とSEOスパムにどれほど簡単に遭遇するかにある

1件のコメント

GN⁺ 2024-01-01

Hacker News の意見

最近、検索アルゴリズムを大きく改善したものの、サンプルクエリでは Marginalia Search が少し運に恵まれたのだと思う
いまでも他の代替手段より結果にばらつきがあるほうで、それだけ検索品質の評価が難しいという意味でもある
効果も、意味理解を持たないキーワード検索エンジンだという点をユーザーが理解しているかに大きく左右される
- 意味理解のないキーワード検索だからよい
  「意味理解」は、ときに偏りがあり、怪しげに動作することがある
- 検索品質の評価が難しいという部分について、個人的に印象深かったことをもっと聞けるとうれしい
  YaCY のような DIY・非企業系検索をある程度追っているので、検索エンジンを作る際の工学的判断の背景をもっと知りたい
  Marginalia は全体として非常に印象的な取り組みで、ここのユーザーからは肯定的な評価しか聞いていない
- 実際に何なのか確かめようと使ってみた後のフィードバック
  DDG で marginalia を探したが最初のページにはなく、Google では雑多な結果の後に出てきた
  marginalia.nu に行くと SSL エラーが出て、search.marginalia.nu は動作する
  Marginalia で duckduckgo を検索すると、最初のリンクはアプリ関連なのである程度関係はあるが、残りは DDG と関係はあっても関連性が微妙
  上で言及されている uBlacklist を検索しても、直接関連する結果は見当たらない
- 「1人の開発者がどうやってそんなにうまくやれるのか」という質問は完全に避けたようだ ;)
  検索がずっと悪くなったのは確かだが、「Adblock」の代わりに「ublock origin」、「download YouTube」の代わりに「yt-dlp」といった魔法の言葉を知って検索語を組み立てる能力も上がった
  みんながスパム業者であるインターネット全体規模の巨大言語モデルを相手に、プロンプトエンジニアリングをしてきたようなものだ
最近の検索はかなり難しく、誰もが結果を操作する方法を知っている
Kagi や Google の Programmable Search Engines のように、どのサイトを表示するかを実質的に変えられる検索エンジンを勧める
特に YouTube は、たまに的確な結果があっても通常の結果を動画で汚染するのが嫌なのでブロックしている。動画から情報を得るには時間がかかりすぎる
特定のクエリに対して結果を推薦できる機能は魅力的だが、それも操作される可能性が高く、結局はDIY アプローチだけが扱いやすそうに見える
自分の場合は、正しいと信じるドメインの結果だけを許可している。ホワイトリスト方式には欠点があり、通常、新しいドメインは検索結果ではなく Reddit やここ（HN）のようなソーシャルな経路で検証する
発見可能性と結果操作のされやすさの間には、本質的なトレードオフがあると思う
2008年の Google 検索結果を懐かしむ気持ちは分かるが、当時はコンテンツが今より数桁少なく、検索順位がビジネスでどれほど価値を持つかも知られていなかったので、SEO はほとんどなかったはずだ
また、平均的なユーザーが「Youtube Download」と検索したときに yt-dlp が「正解」だという点には同意しない。平均的なユーザーはコマンドラインを知らないし、使いたがらない可能性が高い
- 最近はむしろ検索するときに YouTube 動画をより優先して見るようになっている
  多くのウェブサイトは低品質な SEO ファームのように同じ内容を再加工しているだけで、作りやすくホスティングも安いからだ
  一方、動画を作るには時間と労力がかかるため、クリックファームとして使うにはハードルが高い
  従来型の検索が失敗したとき、YouTube に2009年ごろ投稿された動画が、探していた内容を明確かつ落ち着いて詳しく説明してくれることが何度もあった
  製品購入情報を探すときにも、より良い情報源になることがある。たとえばどの扇風機を買うか調べていると、複数の扇風機の有用性をテストし、アプローチと結果を動画で見せる専門チャンネルがある
  主流のチャンネルはあまり役に立たないが、「古いウェブ」風の熱意ある動画がほぼどんなテーマにも存在し、宝の山のようだ
- 2008年は Google が作られてから10年後で、人々はすでに SEO を理解しており、Google もアルゴリズム操作を罰するために継続的にアップデートしていた
  たとえば「link farming」の Wikipedia 記事では、1999年からそうした行為があり、Inktomi の SEO を狙ったものだったと説明している
  https://en.wikipedia.org/wiki/Link_farm
  2004年ごろの Amazon 社内発表でも、Amazon のウェブページの Google SEO を強化すればトラフィックと売上が増えるという内容があったのを覚えている。Amazon は NIH 症候群に似た理由で、むしろ少し遅れていた
- 古くからあり信頼されているサイトと、検索結果に存在するために作られた生成ゴミを、検索エンジンが区別するのがそれほど難しいとは信じがたい
  人間が区別できるなら、原理的にはコンピューターにもできるはずだ
- Google の PSE は悪くないが、複数を切り替えて管理する良い方法がない
  各 PSE の公開リンク UI に小さなドロップダウンを追加するだけでも、どれを使うか選べるはずなのに残念だ
  Giggle[1] はこの機能を提供しており、私は Kagi と一緒にローカルで動かし、数年かけて集めてきたドメイン一覧を対象に、より具体的な検索に使っている
  1. https://github.com/dan-lovelace/giggle
- 結果操作という面があるので、非商用サイト検索エンジンが好きだ
  クリックから売上が生まれなければ、そのゲーム自体がほとんど消える
  収益を得る権利がないという意味ではないが、そのモデルは明らかにユーザーに敵対的な行動を誘発する
  ジャーナリズムのような正当なサイトもこのモデルを使っているので、オプションとして残しておくのはよいかもしれない
KagiはHNで知り、100回検索してみたあと購読した
任意のJSやCSS関連の内容を検索するとMDNが最初の結果に出るし、そうでなければ上位のスパムサイトを下げられる
ローカルの大規模言語モデルがクリックベイトや低努力コンテンツを検出するよう学習されているとよいと思う
YouTube検索で、Kagiがリスト型記事をまとめるようにすべてのクリックベイトが折りたたまれ、残りだけが潜在的に高品質なコンテンツとして残る様子を想像している。今それが可能かはわからない
- YouTube動画にはKagi Summarizerを使えば、ゴミ動画を見るのに時間を無駄にせずに済む
  すばらしいライフハックだ
- HNで見て、Kagiの大ファンになった
  広告だらけではない検索エンジンがどれほど良くなり得るのかに驚いた
- Kagiに6か月以上課金しており、とても満足している
  サブスクリプションはかなり嫌いなほうだが、もともと無料のサービス領域でこれなら、かなり意味のある評価だと思う
  ときどきローカル検索ではGoogleに移る必要があるが、それ以外は満足している
アカウントがない人も比較できるよう、現在のKagiの結果を共有する
youtube downloader
https://kagi.com/search?q=youtube+downloader&r=us&sh=_szITdy...
ad blocker
https://kagi.com/search?q=Ad+blocker&r=us&sh=-BHzV2ZoCDpmgOu...
download Firefox
https://kagi.com/search?q=Download+Firefox&r=us&sh=zkkmc_EQX...
why do wider tires have better grip?
https://kagi.com/search?q=Why+do+wider+tires+have+better+gri...
why do they keep making cpu transistors smaller?
https://kagi.com/search?q=Why+do+they+keep+making+cpu+transi...
vancouver snow forecast winter 2023
https://kagi.com/search?q=Vancouver+snow+forecast+winter+202...
Webにはスパムが多すぎるという著者の意見に同意する。Kagiは通常、スパムをかなりうまく下げていると見ており、広告やトラッカーの数はKagiのネガティブなランキングシグナルだ
それでもさらに改善できるし、「Small Web」のような特殊検索モードはスパムを事実上排除する
コミュニティによるこうした検証は歓迎しており、今後も私たちを誠実でいられるよう引き締め続けてほしい
- Kagiはより多くクリックしなければならないWebサイトを提示し、Googleは妥当な答えをすぐに出す
  例ではスパムも見当たらない
  “why do wider tires have better grip?”については、幅広タイヤはより大きな接地面で重量をより均等に分散し、コーナリング時のグリップを高めて操縦性と安定性を改善すると答える
  “why do they keep making cpu transistors smaller?”については、小さなトランジスタは過熱せずにより多くの計算を行えて電力効率が良く、ダイサイズを小さくしてコストを下げ、密度を高めてチップあたりのコア数を増やせると答える
  “vancouver snow forecast winter 2023”については、2023/2024シーズンには十分な降雪と氷点の上下を行き来する気温が予想されるので備えるよう答える
ChatGPT関連の記事で、なぜ3.5を使うのか本当に理解しがたい
利用可能な最高バージョンのChatGPTで得られる結果について、かなり誤解を招くやり方だ
比較用に、著者のすべての質問をGPT-4に投げた結果はここにある
https://chat.openai.com/share/ed8695cf-132e-45f3-ad27-600da7...
- ほとんどの人がアクセスできるのがChatGPT 3.5だからだ
  大多数の読者が料金を払わない対象について話すのはほとんど役に立たないし、任意の第三者が他人にOpenAIへ送金するよう促す義務もない
  人々が3.5を使うことに不満があるなら、無料で提供されているサービスを使う人たちではなくOpenAIに抗議すべきだ
  個人的には、4と3.5の差に対する過度な賞賛が正当化されるとは感じない
  https://news.ycombinator.com/item?id=38304184
- そんなに悪いなら、OpenAIはなぜChatGPT 3.5を提供し続けているのだろうか
- ほとんどの人にとっては少し使いにくい
  メッセージ数制限のある月20ドルの固定課金をするか、APIキーを取得する方法を理解するか、同程度の費用と制限のあるサードパーティサービスを使う必要がある
uBlacklistを使ってみるとよい。検索結果向けの uBlock のようなツール
https://addons.mozilla.org/en-US/firefox/addon/ublacklist/
https://chromewebstore.google.com/detail/ublacklist/pncfbmia...
設定と個人用ブロックリストを Dropbox や Google Drive に同期でき、ブロックリストの購読も可能
ただし検索エンジンを自分で有効にして、リストを購読する必要がある。uBlacklist の購読設定にはまだ組み込みフィードがない
uBlacklist のサイトにはいくつかフィードがある
https://iorate.github.io/ublacklist/subscriptions
よりよいフィード一覧も見つけた
https://github.com/quenhus/uBlock-Origin-dev-filter#other-fi...
- この機能はすでに Kagi にある
  検索結果からドメインを上位に上げたり、ブラックリストに入れたりできる
- uBlacklist は本当に素晴らしい
  何年も使っているが、まったく問題なかった
  ちょっとしたコツとして、“Skip the "Block this site" dialog”をオンにし、“Hide the "Block this site" links”はオフにすると、スパムサイトをずっと素早くブロックできる
- uBlacklist を自分のブラックリストと併用すると、Google もかなり使えるようになる
Google の結果は今でも非常に良いと思っている側
ただし uBlock Origin を使っていて、オフにすることは試す気にもならない
著者が「非専門家のブラウジング体験」を得るために広告ブロッカーを切ったという意図は理解できるが、すべてのクエリで uBlock をオンにした別テストもできたはず
それに、非専門家の体験をまねしながら動画ダウンロードの結果に yt-dlp が出ることを期待するのは、少し一貫していない
yt-dlp はコマンドラインの Python ユーティリティだ。非専門家とはかなり距離がある
ほとんどの人は動画がダウンロード可能なファイルだということさえ知らず、知っている人の中でも大半はコマンドラインや Python を知らない
“how to download youtube videos”を Google で検索すると、最初の結果に savefrom.net というサービスが出てきて、問題なく動作し、詐欺のようにも見えない。自分の基準では「非常に良い」に当たる
“how to download youtube videos from the command line”で検索すると、上位いくつかの結果は youtube-dl 関連で、GitHub と Super User のリンクも含まれる。yt-dlp には触れていないが、youtube-dl はよい出発点だ
- シークレットタブで Google に “how to download youtube videos” と入力して検索すると、最初の2件は次のように出る
  https://msunduziassociation.online/perfect-online-videos/
  https://gssaction.org/program-all-in-one-media-solutions/
  著者と同じく、明らかに「ひどい」カテゴリに入れる
- savefrom.net を実際に使ってみたのか気になる
  “https://www.youtube.com/watch?v=IkYVmtgxebU”を入力して “Download” を押すと、マルウェアをインストールしようとする新しいタブが開く
  インストールを拒否すると、その新しいタブはマルウェアのホームページへ移動する
  タブを閉じて元のタブに戻ると、savefrom.net は “The download link not found.” というエラーを表示し、動画のダウンロードを手助けしてくれない
- 広告ブロッカーは必要で、個人的にはスクリプトブロッカーも必要だと思う
  時間がたつにつれて検索が悪くなったという漠然とした感覚はあるが、大きな問題ではない。たいてい良いサイトは最初の1〜2ページ内にあるので、開いて確認すればよい
  しかし、サイトをクリックした瞬間に攻撃されるという意味なら、状況の深刻さは一気に増す。良いサイトがあるかだけでなく、悪いサイトがないかが重要になる
  それ以外では、人々は一般にウェブサイトからプログラムをダウンロードしないよう訓練されるべきだ。時間がたつにつれて、これは少し良くなったように思う
  Google は実行ファイルへのリンクがあるサイトの順位を下げることもできるはずで、おそらくそうしているのではないか
- Google とその他の検索エンジンは、“weak neutral currents”のような非常に具体的で独特な技術用語でない限り、ひどいと思っている側
  もっと日常的な検索では、探している語句すら含まないゴミの山を漁ることになる
  “verbatim”検索も幸運を祈るしかない。無視されるか、結果が0件になる
- その記事から得た要点は、「他人の感情や、X は悪く Y は良いというミームに頼らず、誰でも自分のテストを作れる」ということ
  回避策なしで非専門家の体験をまねるのは、一般的な利用パターンではない。誰しも好みのツールからより多くの価値を引き出す自分なりの方法があるからだ
  しかしこの記事は、「なぜこのクエリを選んだのか、詐欺をどう評価したのか」といった実験の組み立て方を示している
  人々が同じ精神で、現在のツール選択が局所最適解に閉じ込められていないか評価してみるとよいと思う
人々が検索結果を悪いと感じる理由は理解できる
“Download youtube videos”に対する優れた結果が「理想的には上位結果は yt-dlp か薄いグラフィカルラッパーであるべきだ」というものだなんて
自分はダウンロードリンクを入れてハードディスクに落とせるウェブサイトさえあればいい。どのパッケージを使っているかは気にしない
90年代のようにマルウェアを心配しているわけでもないし、99.999%の人はプログラミングに触れる人ではない
検索結果がどれほど主観的かを思い知らされる。彼らの「優れた」結果は、自分にとっては全部「ひどい」結果だ
- 90年代のマルウェア、正確には実際のウイルスは笑える程度のものだった
  特にコンピューターが孤立した物だったからだ。接続されたコンピューターのほうが例外だった
- いま試してみたら、Kagi の最初の結果がまさにそういうサイトだった
  動画をとても高速に処理してダウンロードさせてくれた
  分別のある人がなぜ youtube-dl を好むのだろうか
「検索がひどく悪くなった」という態度でいつも混乱するのは、せいぜい逸話的証拠、悪ければ逸話的な記憶に基づいていることが多い点だ
自分もここ数年で検索が悪くなったという印象はあるが、本当にそうなのかどうすれば分かるのだろう
検証可能な主張であるべきだ。Google Trends のような場所の上位 N 件の検索語を試して性能を見ればよい
ベンチマークを作るのは簡単そうに見えるのに、この問題に不満を言う人の中で誰もそうしようとしない
Dan は実際の証拠と結果に点数を付ける基準を提示し始めたが、それですら見た例は5つだけだった。一般的な主張をするには本当に小さなサンプルだ
だから、なぜ検索が悪くなったという感情についての記事はこれほど多いのに、その主張を検証する人がいないのかという疑問が残る
- 要点は、主流検索エンジンの結果ページが、一般人が安全に通り抜けるのが難しい詐欺の地雷原だということのようだ
  関連性だけを見る問題ならサンプルが小さいという批判は妥当だが、強調点が被害なら小さなサンプルにも意味がある
  「遊び場5か所のうち3か所で使用済み注射器を見つけた」と言われたら、普通は p 値や誤差棒を求めたりはしない
- 公平な批判だとは思わない
  1. 「どれだけうまく動くか」を評価する段階は必然的に主観的だ
  2. 研究を設計して参加者を募集することはできるが、それはブロガーの仕事ではない
  3. 記事では、人々が結果が悪くなったことに同意している調査にもリンクしている。サンプルの問題はあるが、ないよりはましだ
    特にこの場合、筆者は「自分の好みを基準にすると、どの結果が最も良いのか？」という問いに答えている
- 他人を代表することはできず、ただオンラインで何かを探そうとしているだけだ
  Google と競合する検索エンジンを作ったり、論文を書いたりしようとしているわけではない
  この問題はここで何年にもわたって何度も提起されてきたが、答えはいつも説明であって解決策ではなかった
  品質低下は一夜にして起こるものではなく、何年にもわたって進む
  Google は、ある検索語はあまり一般的ではないとして「did you mean...?」を出し、本来やろうとしていた検索に2回目のクリックを強制し始めたし、それを無視させる修飾子まで無視されるようになってさらに悪化した
  慎重に選んだ3語の単純なクエリが何千もの結果を出すのに、関連するものが一つもないと気づいたとき、もう十分だと感じた。人によって違うかもしれない
- Dan は問題に定性的な観点から取り組んだ
  もっと多くの人が定量的最大主義ではなくこうしたアプローチを取っていたら、私たちを苛立たせる製品は減っていたかもしれない
  重要なのは検索が悪くなったという圧倒的な実感であって、私たちをここまで連れてきたまた別のスプレッドシートではない
- これを行うには「品質」についての包括的な定義が必要だが、まったく簡単ではなく、少なくとも一部は主観的にならざるを得ない
  欠落を品質の定義に含めるのも難しいし、何を欠落させるべきかも主観的だ
  たとえば「Gaza」を検索すると、あるエンジンは最近の出来事だけに集中し、別のエンジンは最近の出来事を無視して一般情報だけを含めるかもしれない
  どちらのほうが品質が高いのか？実際には何を探しているか次第だ
  結局、重要だと思うものの主観的なリストを作り、それに従って点数を付けるしかなく、これは追加の手順が付いただけの逸話的評価とほとんど同じだ
Google や何らかの検索エンジンがなぜいまいちなのか知りたいなら、自分たちの検索結果をどう測定しているかを見ればいい
ほとんどの検索会社は、筆者がやったことに似たことを、非常に具体的なガイドラインに従って大規模に実施している
たとえば Google には検索品質評価者向けの168ページのガイドラインがある
https://static.googleusercontent.com/media/guidelines.raterh...
そこには、クエリの意味を把握し、ユーザーの意図を判断し、ウェブサイトの「品質」を評価し、クエリの意味・意図に対してサイトがどれだけ有用かを採点することなどが含まれている
つまり検索会社が筆者のやったことをしていないのではなく、筆者と基準が違うだけだ
その基準はおそらく筆者よりもユーザーに合っているかもしれないが、そうでないかもしれないし、永遠にそうだとも限らない
- その言い分が正しいとは見なしにくい
  リンク先の文書の29ページは「Lowest Quality Content」を説明している
  筆者がスパム的・詐欺的と評価した検索結果の大半は、このガイドラインに明確に当てはまる
  だとすれば、評価者がそのトピックを十分に知らず、有害または誤解を招くサイトを見分けられないか、評価者は正しく評価しているのに望む効果が出ていないかのどちらかだ
- Google が「普通の人」の検索をどう理解しているかに関係しているかもしれない
  Google は製品検索エンジンであり価格比較サイトとして見るようになったし、その分野では優れている
  購入を検討し得るどんな製品でも関連性の高い製品を見つけてくれるので、Google はそちらに最適化したのかもしれない
  自分の検索の大半は IT、プログラミング、ソフトウェア、コンピューター全般に関係しているが、普通の人は製品、ニュース、店の営業時間を検索する
  Google はそういうものにはかなり優れており、お金は「何かを買いに行く」ことにある
  Google の商品検索広告は、実際の検索結果より常にずっと正確だ
  Google は商品販売に最適化したのだと思う
- 平均的なユーザーがなぜブログスパムの検索結果を欲しがるのだろうか
  大規模言語モデルが改善されれば、返される結果をよりうまく選別できるようになることを願っている

Google、Bing、Marginalia、Kagi、Mwmbl、ChatGPTの検索品質比較

比較方法と評価基準

全体結果

クエリ別結果

`download youtube videos`

`ad blocker`

`download firefox`

`Why do wider tires have better grip?`

`Why do they keep making cpu transistors smaller?`

`vancouver snow forecast winter 2023`

広告、SEO、ハルシネーションが混ざる仕組み

広告ベース検索のインセンティブ問題

小規模検索エンジンとメタ検索の可能性

付録：その他の検索エンジン

付録：良い答えを見つけるための回り道

Googleナレッジカードの事例

批判への回答

1件のコメント

Hacker News の意見

Google、Bing、Marginalia、Kagi、Mwmbl、ChatGPTの検索品質比較

比較方法と評価基準

全体結果

クエリ別結果

download youtube videos

ad blocker

download firefox

Why do wider tires have better grip?

Why do they keep making cpu transistors smaller?

vancouver snow forecast winter 2023

広告、SEO、ハルシネーションが混ざる仕組み

広告ベース検索のインセンティブ問題

小規模検索エンジンとメタ検索の可能性

付録：その他の検索エンジン

付録：良い答えを見つけるための回り道

Googleナレッジカードの事例

批判への回答

関連記事

1件のコメント

Hacker News の意見

`download youtube videos`

`ad blocker`

`download firefox`

`Why do wider tires have better grip?`

`Why do they keep making cpu transistors smaller?`

`vancouver snow forecast winter 2023`