学生1人あたり42セントでAI不正行為を見抜く：NYU教授のAI口頭試験実験

(aisparkup.com)

11 ポイント投稿者 davespark 2026-01-08 | まだコメントはありません。 | WhatsAppで共有

NYU教授によるAI口頭試験の実験

背景

AI時代における従来型課題評価の限界：学生はAIで課題を完璧に作成できても、実際の理解不足が明らかになる
Panos Ipeirotis教授（NYUスターン経営大学院）：AIでAI不正行為に対応する逆転の発想の実験

実験概要

授業：AI/MLプロダクトマネジメント
対象：36人の学生
方法：ElevenLabsの音声AIエージェントを活用した口頭試験
内容：学生プロジェクトに関する質問 + 授業のケーススタディに関する質問
期間：9日間、学生1人あたり平均25分
総費用：15ドル（学生1人あたり42セント）
- Claude：8ドル、Gemini：2ドル、OpenAI：30セント、ElevenLabs：5ドル

費用比較

AI試験：15ドル
人間による採点：750ドル（36人 × 25分 × 2人 × 25ドル/時間）
利点：大規模授業でも口頭試験を実施可能

初期の問題点

エージェントのトーン：厳格で高慢に感じられた（学生の不満：「怒鳴られた」）
挙動の問題：複数の質問を同時に行う、繰り返し時に再構成する、すぐに割り込む
ランダム性の偏り：「ランダム選択」と指示しても特定ケース（Zillow 88%）に偏る
- 理由：LLMの訓練データに人間の偏りが反映されているため

採点方式

方法：Andrej Karpathyの「Council of LLMs」を適用
- Claude、Gemini、ChatGPTが独立評価 → 相互レビュー → 修正
結果：初期スコア差は大きかったが（Gemini 17点 vs Claude 13.4点）、レビュー後は60%が1点以内に収束
フィードバックの質：AIは人間より優秀（構造化された要約 + 直接引用）

発見事項

テーマ別の差：「実験」テーマが弱い（平均1.94/4点）→ 教授法の問題を認識（A/Bテストを軽視）
試験時間と成績：相関なし（最短9分が最高点、最長64分は平凡）

学生の評価

AI形式を好む：13%（人間を好む割合の2倍）
ストレス：83%がより高いと感じた
公平性：70%が実際の理解度を評価していることに同意（最高評価項目）

結論

AI口頭試験：拡張可能・低コスト・公平
利点：質問を毎回新たに生成できる（漏えい問題なし）、練習も可能
アイロニー：AI不正行為へのAIによる解決策
教育評価の変化の可能性を示す一方、限界も明らかにした

まだコメントはありません。

まだコメントはありません。