すべての人のための、より高速で高品質なAI回答、Phind-405B

(phind.com)

1 ポイント投稿者 GN⁺ 2024-09-06 | 1件のコメント | WhatsAppで共有

提供された記事リンクには要約できる内容がありません。

1件のコメント

GN⁺ 2024-09-06

Hacker News のコメント

Phind は今でも私のお気に入りの AI 強化検索エンジンです
技術的な質問に答えつつ、回答を検証したり詳しく見たりできる参考リンクをうまく付けてくれます
最近の履歴の例としては、Mastodon がサポートする動画フォーマット https://www.phind.com/search?cache=jpa8gv7lv54orvpu2c7j1b5j、XFS と ext4fs の比較 https://www.phind.com/search?cache=h9rmhe6ddav1bnb2odtchdb1、Apple ][ の no slot clock アプローチ https://www.phind.com/search?cache=w4cc1saw6nsqxyige7g3wple などがあります
回答は完璧ではありませんが、よい概観を示してくれますし、Web ソースへのリンクが優れています。ChatGPT と Claude はこの点が弱く、Bing CoPilot はある程度できますが、あまり好みではありません
- 私のテストでは Phind 70B も幻覚回答をしました
  たとえば、バッテリーを簡単に交換できる Bluetooth 耳栓について尋ねたところ、バッテリーがケースにはんだ付けされていると分かっている製品を何度も勧めてきました。公平に言うと、Perplexity もこの質問には失敗しました
- まだ改善の余地はかなり大きいと見ており、回答の構成と検証可能性をより良くしようとしています
- Phind は、インターネット上で見つかる、より関連性が高く最新の情報を得るために主に使っていたツールでしたが、3か月ほど前からそうではなくなりました
  時間がたつにつれて、さまざまな質問で回答がますます不完全だったり間違っていたりすることが増え、さらに悪いことに、回答を見つけられないと言いながら、参照サイトの中には答えが含まれていることもありました
  結局、主に Bing と gpt 4o に戻りましたし、正直なところ新バージョンを再び試すのに時間を使うのはためらわれます
- ここでは参考文献が見えますが、私が質問すると、ログイン状態でも回答だけが表示されて引用が出ません
  以前にもあった問題で、修正されたと思っていましたが、いまだに遭遇しています。ログアウトして尋ねると参考資料は出ますが、その場合は instant モデルを使った回答になります
- 似た理由で Brave Search を好んで使っています
  通常の検索と LLM ベースの検索のうち、より適した方へ簡単に切り替えられます
たった今使ってみましたが、調査中の研究テーマについて尋ねたところ、回答はくれたものの参考文献がありませんでした
そこで回答をコピーして、具体的に参考文献を付けてほしいと頼むと、以前の回答で特定の研究を参照したのは誤りで、検索結果にはその主張を裏付ける関連情報がない、というように謝罪しました
これはちょっとよく分かりません
- 続けてテストしたところ、Laravel 11 Blade fragments の使い方を簡単に説明してほしいと頼んだときは、かなりまともに答えました
  その後、Laravel で使うルートコード 3 行を渡し、URL パラメータで返す fragment を決定するように実装する方法を尋ねました
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments');  
});  
```
  正しい view が作られている必要があると言ったのは良い出発点でしたが、続けて次のように勧めてきました
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return fragment($fragment);  
});  
```
  すぐに間違いだと分かりましたが、学習中の人には分からないかもしれません。そこで「ちょっと待って、このコードはどの view を使うべきかどうやって分かるの？」と改めて尋ねる必要があり、そこでようやく正しい答えを出しました
```
Route::get('/vge-frags/{fragment}', function ($fragment) {  
return view('vge-fragments')->fragment($fragment);  
});  
```
  こうしたモデルではエッジケースを見つけるのがあまりにも簡単で、受け取った回答は事実上すべて疑わなければなりません。それでも、場合によっては非常に強力で有用です
- まず Always search がオンになっているか確認し、最初の質問をもう一度試してみるとよいでしょう
  そうすれば、参考資料付きで正しい答えが得られるはずです
- 「AI アシスタントとしてもっと慎重であるべきでした」のような文言が本当に嫌いです
- あの長い謝罪文は、正直なところ「私は適当なことを言いました」を冗長かつ反復的に述べているだけです
  もちろん、人間にもああいう言い方をする人はいます。LLM ブームに良い面があるとすれば、私たちをサイコパス的な話法に免疫を持たせてくれるかもしれません
「AIベース検索の中核的な問題は、従来の Google に比べて遅すぎることだ。より良い答えを生成できても、追加の遅延が敬遠される」という話は本当なのか？
自分が感じたり耳にしたりする不満の大半は、不正確なAIの結果、たとえばコーディングを手伝うときに自信満々に間違えるようなミスのほう
- Enterを押してから何かが表示されるまでが遅いのは当然
  ただ、Enterを押した後に関連する正解のまとまりが頭に入るまでの時間こそ、測定すべき目標ではないのか？その基準で見ると、20年前の方式は10年以上前にピークに達したように思えるし、そうでなければ Phind が注目されることもなかったはず
  20年前のページランク式検索で、検索してから頭に正解が入るまでの時間は、今や「DNF」、つまり完了失敗に近づいている
  幻覚であれ無関係な結果であれ、どちらも頭を使ってふるい分ける必要がある。割合で見れば、幻覚より無関係な結果のほうが多く、ただ私たちはずっと前に検索結果ページへの信頼を諦めただけ
- これは速度 / 正確性 / コストの三角形の問題
  小さいモデルはサービングコストが効率的で速いが、半分くらい間違うこともある
  大きいモデルは安価なハードウェアでは遅く動くが、より正確な答えを返せることがあり、通常は個人利用程度なら十分速い
  3つ目の選択肢は、大きくて速く正確なモデルだが、速度を出すには Nvidia/Groq などにかなり大きな金額を払う必要があり、電力コストを合わせるには太陽光発電所まで建てる必要があるかもしれない
- 自分の経験上は本当
  何かを検索する前に、Google の結果を素早く眺めるほうが速いか、Perplexity Pro が1行ずつゆっくり答えを吐き出すのを待つほうが速いか、まず見積もることがある
- どちらも中核的な問題だと思う
  結果が正確なときは遅すぎるし、届いた結果も頻繁に不正確で信頼しにくい
タイトルのように全員向けではなく、Proユーザー向け
タイトルが紛らわしいので変えてほしい
これはKagi Assistantと比べるとどうなのか気になる
料金ページには月額$20で Phind-405B と Phind-70B の検索無制限、1日あたり GPT-4o 500回以上、Claude 3.5 Sonnet 500回以上、Claude Opus 10回と書かれている
「Phind-405B が HumanEval 0-shot で92%を記録し、Claude 3.5 Sonnet に匹敵する」としているが、他のベンチマークもあるのか？
- Phind を6か月契約して使っていたが、今はKagi Assistantのほうが満足度が高い
  リンクをそこまで多く出してくれるわけではないが、全体の結果は同等かそれ以上で、lenses も使える。通常の検索エンジンも一緒に提供される
  Phind にはUI関連でいら立つ点が1つあって、Firefoxでスクロールバーがたまにランダムに跳ね、入力するたび、またはトークン生成中にもそうだったように思う。見ていた位置を毎回探し直す必要があるとかなり時間を無駄にするし、単純に一番下へ戻るのも面倒
  依然として中核的な問題は、どちらも難しい質問で幻覚が多すぎる点で、これはどこでも共通の問題
- VSCode拡張があるので、それを使うならある程度意味はある
  純粋な検索用途としてはよく分からない。自分の経験では Phind はインターネットアクセスがあるときに非常に優れているわけではなく、より良い答えを得るために検索機能をオフにする人もいる
- 92% という数値は、より難しいベンチマークが必要だという意味で、判断を難しくする
  特に、スコアの高いモデルでも幻覚の多いもっともらしい答えを出すことが多い。たとえば Llama 3 は自分にとってはおしゃべりで自信満々だが、かなり頻繁に間違う
  その程度の性能だと、正解そのものが曖昧な難しいエッジケースの領域に入っているように思う
- 価格を見ると、月額$20の「Phind 無制限 + ChatGPT 1日500回」以外には、より低いサブスクリプション階層がないようだ
  必要なのはそういうものではなく、月100回程度を$5で使えるプラン。コーディング中心の検索エンジンなら、なぜより機能の多い競合と同じ価格を払う必要があるのかを考えるべき
この5〜6か月ほどPhind Proを購読してきたと思う
検索結果の汚染は少し良くなった感じがするが、フォローアップ質問をすると回答を台無しにすることがまだある
たとえば直前の回答のコードを参照して質問すると、次の回答が会話の文脈ではなく検索結果内の何らかのコードに基づいて答えることがある。RAGに詳しくないので、優先順位のようなものでどう直せるのかは分からない
それ以外では、Webインターフェースで独自の artifacts をどう扱うのか本当に期待している。Claude の artifacts UI はWebで作業するときの自分のワークフローに非常によく合っていて、複数ファイルのバージョンがある点も良い
- artifacts に取り組んでいる
  どのモデルで汚染が見えるのか気になる
ちょっと待って、これは実際かなりうまくやる
妥当な結果を得るには依然としてフォローアップ質問が必要だが、今年初めにテストしたときは、ほとんどのテストクエリで完全に失敗していた
ユーザーがサービスを評価できるように、無料クエリを少なくとも1回は提供してほしい
- 高速モデルのPhind Instantは完全に無料
Phind はここ数年で見つけた最高の生産性向上ツール
おめでとう。これからも良いものを作り続けてほしい
最近、AI に次の質問をした
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
これはコピーが発生するのではないかと聞いたところ、コピーは発生しないと非常に自信満々に答えた。auto が型を const 参照として推論するのでコピーしないと思ったようだが、それは間違いで、そのためには auto& や const auto& が必要になる。本当に確かかと聞き直すと、さらに自信満々に答えた
Godbolt の出力はこちら https://godbolt.org/z/Mz8x74vxe
"copy" が出力されるのが確認でき、コピーされたオブジェクトで non-const メソッドを呼び出せることも分かる。これは non-const 型であるという意味だ
Phind にも同じことを聞いたが、同じ答えが返ってきた https://www.phind.com/search?cache=k3l4g010kuichh9rp4dl9ikb
異なる AI が 2 つも、そのうち 1 つはコーディング特化をうたっているのに、どうしてここまで自信満々に失敗できるのか？
- こうしたツールが結局は トークン生成機械であり、出力が疑似知性的に見えるだけだということを示している
  まだ盲目的に信じる段階ではなさそうだ
- LLM により良い回答をさせる昔からのコツの一つに、「段階的に考えてみよう」と尋ねる方法がある
  以下の質問を Claude にそのように聞いてみた
```
const MyClass& getMyClass(){....}  
auto obj = getMyClass();  
```
  「これはコピーを作るだろうか？段階的に考えてみよう。」
  こうしたツールをより頻繁に支援に使おうとしているなら、役に立つかもしれない

すべての人のための、より高速で高品質なAI回答、Phind-405B

関連記事

1件のコメント

Hacker News のコメント