11 ポイント 投稿者 davespark 2026-01-08 | まだコメントはありません。 | WhatsAppで共有

NYU教授によるAI口頭試験の実験

背景

  • AI時代における従来型課題評価の限界:学生はAIで課題を完璧に作成できても、実際の理解不足が明らかになる
  • Panos Ipeirotis教授(NYUスターン経営大学院):AIでAI不正行為に対応する逆転の発想の実験

実験概要

  • 授業:AI/MLプロダクトマネジメント
  • 対象:36人の学生
  • 方法:ElevenLabsの音声AIエージェントを活用した口頭試験
  • 内容:学生プロジェクトに関する質問 + 授業のケーススタディに関する質問
  • 期間:9日間、学生1人あたり平均25分
  • 総費用:15ドル(学生1人あたり42セント)
    • Claude:8ドル、Gemini:2ドル、OpenAI:30セント、ElevenLabs:5ドル

費用比較

  • AI試験:15ドル
  • 人間による採点:750ドル(36人 × 25分 × 2人 × 25ドル/時間)
  • 利点:大規模授業でも口頭試験を実施可能

初期の問題点

  • エージェントのトーン:厳格で高慢に感じられた(学生の不満:「怒鳴られた」)
  • 挙動の問題:複数の質問を同時に行う、繰り返し時に再構成する、すぐに割り込む
  • ランダム性の偏り:「ランダム選択」と指示しても特定ケース(Zillow 88%)に偏る
    • 理由:LLMの訓練データに人間の偏りが反映されているため

採点方式

  • 方法:Andrej Karpathyの「Council of LLMs」を適用
    • Claude、Gemini、ChatGPTが独立評価 → 相互レビュー → 修正
  • 結果:初期スコア差は大きかったが(Gemini 17点 vs Claude 13.4点)、レビュー後は60%が1点以内に収束
  • フィードバックの質:AIは人間より優秀(構造化された要約 + 直接引用)

発見事項

  • テーマ別の差:「実験」テーマが弱い(平均1.94/4点)→ 教授法の問題を認識(A/Bテストを軽視)
  • 試験時間と成績:相関なし(最短9分が最高点、最長64分は平凡)

学生の評価

  • AI形式を好む:13%(人間を好む割合の2倍)
  • ストレス:83%がより高いと感じた
  • 公平性:70%が実際の理解度を評価していることに同意(最高評価項目)

結論

  • AI口頭試験:拡張可能・低コスト・公平
  • 利点:質問を毎回新たに生成できる(漏えい問題なし)、練習も可能
  • アイロニー:AI不正行為へのAIによる解決策
  • 教育評価の変化の可能性を示す一方、限界も明らかにした

まだコメントはありません。

まだコメントはありません。