人々がいまだにLLMに強気なのが理解できない

(twitter.com/skdh)

8 ポイント投稿者 GN⁺ 2025-03-28 | 2件のコメント | WhatsAppで共有

> "I genuinely don't understand why some people are still bullish about LLMs."

GPT、Grok、Gemini、Mistral などさまざまな LLM を毎日使っている
情報検索や要約の時間短縮を期待して使っているが、依然として出典、引用文、リンクなどを頻繁に捏造する
リンクをクリックすると 404 エラーになったり、引用された文言を検索しても実在しなかったりする
科学論文を引用していても、検索してみると存在しないことが多い

一部の改善はあったが、信頼性は依然として低い

DeepSearch や Chain of Thought 手法の利用により、以前より精度はやや改善した
個人的な推測では、GPT-4o の DeepResearch が現時点で最も信頼できる
Grok は頼んでも参考リンクをあまり提示せず、ツイートのリンクすらまともにつなげられないことがある
Gemini はさらにひどく、出典を探す代わりにユーザーへ自分で検索するよう指示するだけだ

簡単な計算や定数検索には有用だが、正確性は依然として問題

単位変換や物理定数などは素早く提示できるため、時間短縮の効果はある
しかし、オーダー推定のような簡単な計算でも頻繁に誤る
このような作業に 1 億個を超えるパラメータを持つ LLM が必要なのか疑問だ

文書要約でも期待外れの結果

PDF 文書をアップロードして要約を依頼したところ、ヘッダーに 2025 年と明記された文書を 2023 年のものだと取り違えた
このような誤りは「知能」とはほど遠い振る舞いに感じられる

ナレッジグラフも解決策ではない

多くの人はナレッジグラフが LLM の問題を解決すると期待しているが、実際には不可能だ
論理的に一貫した文章でも、現実とはまったく関係ない場合が依然として多い
ナレッジグラフが論理的誤りを防げたとしても、事実性とは無関係な文章は生成され続けうる

市場の過大評価への懸念

企業は LLM を継続的に過大包装しており、これはリスク要因だ
まったく新しい形の AI モデルが登場して LLM を上回った場合、既存の LLM 中心企業の価値が急落する可能性がある
その日が来れば、株式市場に大きな衝撃が走ると予想される

2件のコメント

hhcrux 2025-03-30

私も去年ごろは似たような考えでしたが、発展のスピードを見て、むしろ楽観的になりましたね。

GN⁺ 2025-03-28

Hacker Newsの意見

LLMは驚くべき技術で、長い間夢見られてきたことを可能にしている。スペルミスや曖昧な質問があっても理解して対話でき、優れた画像を生成し、コード作成も支援してくれる。しかし、一部の人は完全な超知能ではないと不満を言う。技術の進歩の速度は驚異的に速い。中には「20年の経験を持つシニアエンジニアのようにコードを書けない」と不満を言う人もいる
主にClaudeを使っていると、体験はかなり異なる。LLMがうまくできなさそうな作業は試さない。AIを使う人は、失敗を探す人と成功を探す人に分かれる。簡単なスクリプト作業では、LLMはほぼ完璧だ。AIが機能する使い方を見つければ、強力なツールになり得る
LLMの使い勝手は依然として不十分だ。引用や出典の提示がうまくできない。コンピュータが事実を正確に見つけられないというのは、コンピュータの伝統的な強みに反している
多くの人がLLMを誤って使っている。最近では、言語モデルが音声文字起こしに最適かどうかについて多くの議論がある。10年前にはリアルタイムの機械文字起こしはなかったが、今では可能であり、なお発展を続けている。AIモデルの誤りにもかかわらず、機械文字起こしは多くの状況で有用だ
Sabineの意見を聞くべきか迷う。LLMはシーケンスモデリングと予測のタスクを実行できる。問題をシーケンスモデリングに還元できるなら、LLMはその作業を実行できる
LLMに対する批判に共通しているのは、完璧ではないという点だ。ChatGPTを学術研究によく使っている。参考文献をでっち上げることもあるが、重要な研究論文を見つける助けにはなる。正確性の検証は簡単で、知識を見つけることは難しい。結果として大きなプラスの効果がある
技術の力と、私たちが生きているバブルを混同している人が多い。AIに何百万件ものリクエストを送り、必要なものを得ている。技術は進歩しており、コストも変化している。AIにできないことまでできると思い込む傾向がある
Claudeをよく使っていて、健康関連の質問向けのプログラムを生成している。複雑な質問を論理的に説明し、分析を修正できる能力は非常に価値がある。医師と比べた場合、責任はユーザーにある
多くの人は「不完全な」ツールを扱うのが得意ではない。LLMは成功確率が100%ではないツールであり、別のアプローチが必要だ。確率的なオラクルを想像すると、成功確率に応じて有用性は変わる
人付き合いがうまくない友人は多いが、私は誰とでもうまくやれる。AIも同じで、完璧ではないが驚くべきツールだ。AIの長所はミスをはるかに上回る。AIや人との付き合い方を学ぶことは、21世紀に必要な最大のスキルだ