8 ポイント 投稿者 GN⁺ 2024-08-19 | 3件のコメント | WhatsAppで共有

"言語モデルより賢いですか?"

多くのベンチマークは、言語モデルが人間の作業をどれほどうまくこなせるかを評価しようとしています。
しかし、次の単語を予測するという典型的な言語モデルのタスクでは、あなたはどれくらいうまくできるでしょうか?

15問に挑戦してみてください

3件のコメント

 
curioe 2024-08-19

4点…結果がイラッとしますね

 
xguru 2024-08-19

ああ、まいった。英語の問題を解くみたいにやったら、点数が全然出ませんね……

 
GN⁺ 2024-08-19
Hacker Newsの意見
  • タイトルの「スマート」から期待したものとは違うが、興味深いアイデアではある

    • 一度に1問だけ表示し、各回答の後に即座にフィードバックを返すほうがよい
    • そうすれば没入感が高まり、正解をすぐ確認できて有益
  • Hacker Newsのコメントで次の単語を当てるゲーム/クイズを作成した

    • llama2を使って各コメントに対して3つの代替補完を生成し、多肢選択問題を作成した
    • ローカル言語モデルは、プロンプトと回答の合計パープレキシティ(perplexity)が最も低い回答を選択する
    • OpenAIモデルは logit_bias を設定し、許可された回答のうち1つだけを選ぶようにした
    • Claudeや他のオンラインLLMとは比較できなかった
    • クイズが面白いとは言えないが、50%を超える正答率を安定して維持できた
  • 言語モデルが最も選びそうにない単語を選ぶのが勝つための戦略である

    • 「外れ値(outlier)」を選ぶのが最善の戦略である
    • これはAIコンテンツを検出する簡単な戦略になりうる
  • 結果を見ると、与えられた情報だけで次の単語を正確に予測するのは不可能である

    • 回答を確率順に並べ、正解をどれだけ高く順位付けしたかに応じて採点すれば、ランダムよりはよくなるはず
    • LLMが元の著者の文体を模倣しようとしていたのか気になる
  • このゲームは、HNのコメントを読みすぎているかどうかを確認するよいテストである

  • 毎回ランダムなクイズが出るため、結果を比較できない

    • 平均的な人がLLMに勝てるコーパスを見つけ、Wordle風の日次チャレンジとソーシャル共有機能を追加すれば、バイラルになる可能性がある
  • HNで過ごした時間のおかげで、AIより少しだけ良い予測ができた

  • 100問クイズに挑戦する人へ: 伝統的な統計基準では、3分の1超を当てて初めて単なる当てずっぽうより良いと見なされる

    • LLMより優れているには、半分以上当てる必要がある
  • サンプルがHN由来なら、そのテキストがすでにデータセットの一部である可能性がある

    • 最近のコメントを見れば、そうではない可能性が高い
    • ChatGPTはBing検索ツールを使えるが、gpt4o-mini APIモデルがそうする可能性は低い
  • 一部はより大きな文脈から抜粋されており、LLMが予測で有利な立場にある