学生1人あたり42セントでAI不正行為を見抜く:NYU教授のAI口頭試験実験
(aisparkup.com)NYU教授によるAI口頭試験の実験
背景
- AI時代における従来型課題評価の限界:学生はAIで課題を完璧に作成できても、実際の理解不足が明らかになる
- Panos Ipeirotis教授(NYUスターン経営大学院):AIでAI不正行為に対応する逆転の発想の実験
実験概要
- 授業:AI/MLプロダクトマネジメント
- 対象:36人の学生
- 方法:ElevenLabsの音声AIエージェントを活用した口頭試験
- 内容:学生プロジェクトに関する質問 + 授業のケーススタディに関する質問
- 期間:9日間、学生1人あたり平均25分
- 総費用:15ドル(学生1人あたり42セント)
- Claude:8ドル、Gemini:2ドル、OpenAI:30セント、ElevenLabs:5ドル
費用比較
- AI試験:15ドル
- 人間による採点:750ドル(36人 × 25分 × 2人 × 25ドル/時間)
- 利点:大規模授業でも口頭試験を実施可能
初期の問題点
- エージェントのトーン:厳格で高慢に感じられた(学生の不満:「怒鳴られた」)
- 挙動の問題:複数の質問を同時に行う、繰り返し時に再構成する、すぐに割り込む
- ランダム性の偏り:「ランダム選択」と指示しても特定ケース(Zillow 88%)に偏る
- 理由:LLMの訓練データに人間の偏りが反映されているため
採点方式
- 方法:Andrej Karpathyの「Council of LLMs」を適用
- Claude、Gemini、ChatGPTが独立評価 → 相互レビュー → 修正
- 結果:初期スコア差は大きかったが(Gemini 17点 vs Claude 13.4点)、レビュー後は60%が1点以内に収束
- フィードバックの質:AIは人間より優秀(構造化された要約 + 直接引用)
発見事項
- テーマ別の差:「実験」テーマが弱い(平均1.94/4点)→ 教授法の問題を認識(A/Bテストを軽視)
- 試験時間と成績:相関なし(最短9分が最高点、最長64分は平凡)
学生の評価
- AI形式を好む:13%(人間を好む割合の2倍)
- ストレス:83%がより高いと感じた
- 公平性:70%が実際の理解度を評価していることに同意(最高評価項目)
結論
- AI口頭試験:拡張可能・低コスト・公平
- 利点:質問を毎回新たに生成できる(漏えい問題なし)、練習も可能
- アイロニー:AI不正行為へのAIによる解決策
- 教育評価の変化の可能性を示す一方、限界も明らかにした
まだコメントはありません。