- 大規模言語モデル(LLM) の普及により、従来の課題・試験では学習理解度を測れなくなったため、教員陣が ElevenLabs の音声AI を使ってリアルタイムの口頭試験を導入し、実験を行った
- 試験はプロジェクト説明とケース質問の2部構成で、学生はAIに対して 判断根拠と思考過程 を自ら説明しなければならない
- Claude・Gemini・ChatGPT の3モデルが協議形式で採点し、一貫性とフィードバック品質を高め、実際の講義における弱点テーマ(実験設計) も明らかになった
- 36人の学生を9日間、平均25分ずつ評価し、学生1人あたりのコストは0.42ドル と非常に低廉だった
- AI口頭試験は 理解中心の評価をスケーラブルにする新しい試験モデル になり得る
問題認識と口頭試験導入の背景
- 学生課題の品質が不自然に高く、AI作成の疑い が提起され、無作為に質問すると自分で説明できない事例が多数確認された
- LLMへのアクセス容易性 により、従来の課題・試験の信頼性が崩壊し、リアルタイムで思考力を評価できる口頭試験が代替案として浮上
- しかし口頭試験には 大規模運用が不可能 という限界があり、これを解決するため 音声AIエージェント を活用した
ElevenLabsベースの音声エージェント構成
- ElevenLabs Conversational AIを用いて、音声認識・音声合成・ターン管理 などの複雑な要素を統合
- 動的変数 で学生名・プロジェクト情報を渡し、ワークフロー構造 で認証・プロジェクト・ケース質問エージェントを分離
- 認証エージェント: 学生IDを確認
- プロジェクトエージェント: 提出資料に基づく質問
- ケースエージェント: ランダムにケースを選んで質問
- 複数の小型エージェントに分けることで、会話の逸脱防止 と デバッグのしやすさ を確保
試験運用と数値結果
- 合計 36人、9日間、平均 25分(最短9分〜最長64分) で実施
- 平均 65回のメッセージ往復、総コスト15ドル(学生1人あたり0.42ドル)
- LLM採点結果の89% が1点以内で一致し、最短の試験(9分) が最高点(19/20)を記録
- 人間採点と比べて 50倍以上のコスト削減 を実現し、リアルタイム評価・記録・フィードバックの自動化を達成
試行錯誤と改善措置
- 音声トーンが威圧的 という学生フィードバック → さまざまな音声でA/Bテストを予定
- 質問の累積(スタック) 問題 → 「一度に一つの質問」ルールを追加
- 質問を繰り返す際の意味変化 → 「文をそのまま繰り返す」と明記
- 考える時間が不足 → 待機時間を10秒に延長
- ケースのランダム選択失敗 → コードレベルの乱数マッピングで解決
LLM協議採点(council grading)
- Claude・Gemini・ChatGPT が独立採点後、相互レビューと修正を実施
- 1次採点では不一致率が高かったが、2次協議後に 1点以内一致率 62% → 85% へ改善
- Geminiは平均で2点低く調整され、Claude・OpenAI間の一貫性 は高かった
- 実験設計項目 で採点不一致が最も大きく、これは学生回答の曖昧さが原因と分析
- AI採点は 人間より厳格だが公正 で、フィードバックは 具体的かつ行動志向 で優れていた
教育的示唆と診断
- テーマ別達成度分析では 実験設計の平均 1.94/4 で最も低かった
- 0点 8%、1点 19%、2点 42%、4点 0%
- 講義内での A/Bテスト説明不足 が原因と判明し、教員側の教育改善の必要性を確認
- 試験時間と点数に相関はない(r=-0.03) で、短く明確な回答が高得点と関連していた
不正行為防止と透明性
- 学生には ウェブカメラ・音声録画 を義務化し、外部支援を遮断
- 試験構造と質問タイプを 公開ガイドライン として運用し、問題流出リスクを排除
- 学生は同じ構造で 繰り返し練習可能 で、実際の学習効果を強化
学生の反応
- AI口頭試験を好んだのは13%のみで、57%は従来の筆記試験を好み、83%はよりストレスを感じたと回答
- しかし 70%が実際の理解度をよく評価していたと認め、評価の信頼性は高かった
- 自分の都合に合わせた時間・場所で受験できる 柔軟性は好意的に評価
- 改善要望: 速度の緩和、落ち着いた音声、単一質問方式
今後の改善計画
- 速度調整・音声の多様化、学生提出物ベースのRAG質問、明示的な乱数シードによるケース配分
- LLM間で採点不一致が出た際に人間レビューを発動するトリガー を導入
- アクセシビリティ強化: 練習モード、追加時間、代替手段の提供
結論: AIで拡張可能な理解中心評価
- 課題型・筆記試験はLLM時代に無力化 しつつあり、リアルタイムの思考力評価への転換が必要
- AI口頭試験は 理解・判断・即興的思考 を測定し、大規模運用が可能な新しい評価方式 となる
- 問題流出リスクなしに 反復練習による学習強化 が可能
- 「Fight fire with fire」— AIによって生じた問題をAIで解決する評価イノベーション
1件のコメント
Hacker Newsの意見
記事で示されたデータと結論が一致していないと思う
学生たちはAIと対話した後でも依然として筆記試験を好んでいた
大学は何百年ものあいだ不正行為を防ぎながら筆記試験を運営してきたし、コロナ以降はオンライン評価という**「四角い車輪」**を導入したが、実際には丸い車輪に戻るほうがましだという比喩を使いたい
LLM評価の精度も検証していない。結局、結論を先に決めてデータを当てはめたように感じる
「Take-home試験は終わった」というのは自明な事実であって、実験の結果ではない
今では一人でも不正行為があまりに簡単になっている
また、学問分野ごとに評価方式は異なるべきで、コンピュータサイエンスのような新しい分野はまだ評価の成熟度が不足している
最後に、学生の好みは試験の質を判断する基準ではない
実際には人前で自分の意思決定の根拠を説明しなければならない場面が多い
コロナ期に対面経験が減った世代が話すことを怖がるのは理解できるが、こうした不安克服の訓練はむしろ役立つかもしれない
Take-home試験の不正行為の可能性が高まっているため、口頭試験は完璧ではなくてもよりよい代替になりうる
昔はすべての試験でAIが介入する余地などまったくなかった
ペンで手書きし、監督者が見張る体育館で試験を受けていた
不正行為は即退学で、何千人のうち1%しか卒業しなかった
今になってAIに合わせて試験を変えようという話を聞くと正気とは思えない。解決策はすでにあった
結局は学生にだけ責任を押し付ける構造で、教授の怠慢と試験問題の使い回しが問題だった
本当の解決策は毎回新しい問題を作り、さまざまな形で出題することだ
むしろ学校が提供する開発環境のあるコンピュータで試験を受けるほうがよいと思う
もしそれが本当なら、拡張可能な口頭試験方式を見つけることには意味がある
スケーラビリティにこだわる必要はない
大学には金があるのだから、教授が直接口頭試験をやればいい
ドイツの大学院でも口頭試験は多く、うまく機能していた
AIに依存するのは怠惰の象徴のように見える
AIは反復作業には向いているが、対立的な状況では信頼しにくい
私も学部時代に口頭試験を受けたが、教授の態度の変化があまりに大きくて緊張が極限に達した
AIがそうした感情的な圧力を与えられるのかは疑問だ
むしろ私はAIのちょっとしたミスにいら立つほうだ
だが私はそういう場面で頭が真っ白になって何も話せなくなる。本当に苦しい
以前、採用プロセスでTake-home課題を出していたが、応募者の中には自分が提出したコードを説明できない人がいた
LLMが登場した今では、AIに書かせる誘惑ははるかに大きい
しかし私たちは応募者の問題解決力とコミュニケーション能力を評価しなければならない
LLMを許可した面接は結局、AI使用の熟練度テストに変質する
記事の方法には同意しないが、問題意識そのものは現実的だ
次の段階は、AIが音声で答えるAIの代わりを使う状況かもしれない
結局、人間が再び中心に戻るべきだ
今後はスマートグラス、骨伝導マイクなどでさらに巧妙になるだろう
結局、正直だが社会不安のある学生だけが不利益を受けることになる
学期中に自主的な模擬口頭試験を運営するのがよさそうだ
学生は形式に慣れ、声のトーンにも適応できる
36人程度で口頭試験が不可能だというのは意外だ
こうした反復学習こそが本当の学びの方法だ
25ドルを返金されてもLLMが試験するのは絶対に嫌だ
一部の学生だけをサンプルとして抜き出して試験すれば、動機付けにも挫折感にもなりうる
上位の学生だけでも10分ずつ会話する口頭試験なら十分可能だ
AI音声アプリに尋問されるなんて、想像するだけでも恐ろしい
こういう方式が続くなら、いっそ評価のない教育モデルが必要かもしれない
人間相手なら絶対に言わなかったことも簡単に言えてしまう
私こそがそのブログ記事の筆者だ
私たちのAI授業で新しい試みをしたにすぎない
筆記試験をなくそうとしているのではなく、口頭試験をもう一つの道具として追加したのだ
チームプロジェクトで学生が実際に自分の作業を理解していたかを確認するのが目的だった
口頭試験で低い点を取った学生は予想どおりプロジェクト理解度も低かった
36人規模なら直接面談も可能だが、100人を超えると難しい
何よりAIは疲れないため一貫した評価を提供するという研究結果があり、それを信頼した
ジムでフォークリフトを使うのと変わらない
MBAレベルの単純な科目なら可能かもしれないが、微妙な判断が必要な科目ではAIは公平ではない
こうした単純な確認用試験なら、むしろキオスクで選択式にしたほうがよいと思う
私たちの時代はすべての試験が口頭だった
大きな試験は2日がかりだったが、教授とTAが年6回のセッションを運営していた
理由の一つは公平性の文化的解釈の違いだった
多様性の高い環境では口頭試験がバイアス論争を生むことがある
AIで5ドルで採点して20時間をスマホスクロールに使えるなら、そちらを選ぶだろう