AI利用と数学力低下の中、BerkeleyのCS授業で不合格成績が急増
(dailycal.org)- BerkeleyのCS授業の不合格率は2026年春のCS 10で35.3%、CS 61Aで10.6%となり、過去学期より大幅に上昇し、初級科目のD・F比率7%および平均GPA 2.8〜3.3というEECS指針から外れた
- Dan GarciaはClaude、ChatGPT、Google GeminiのようなLLM利用によって学業不正が大きく増えたことを、異常な不合格率の“primary driver”と見ており、CS 10ではほぼ30人がtake-home examでの不正行為で摘発された
- 2つの授業は曲線調整なしで公開された得点基準に基づいて成績を付けており、学生の成績は他の学生の成績に左右されず、Garciaは曲線調整が問題を隠すと考えている
- Gireeja RanadeのEECS 127も数学の準備不足と人員不足に直面し、F比率16.8%を記録した。従来の期末プロジェクトはTA不足のため外され、オフィスアワー参加も低下した
- AI時代のBerkeleyのCS・EECS授業は、学生が難しい問題や混乱に耐えながら批判的・分析的思考を身につけられるよう、より多く教え、補助的支援を拡充する方向で見直しが進んでいる
不合格率の急上昇と成績指針からの逸脱
- Berkeleytimeによると、2026年春はCS 10の学生の35.3%、CS 61Aの学生の10.6%がFを受けた
- 2025年春と2024年春には、両授業ともF比率が10%を超えていなかった
- EECS学科の成績指針では、CS 10やCS 61Aのような初級科目でDとFを受ける学生の比率を7%としている
- 指針上、初級科目の一般的なGPA範囲は2.8〜3.3だが、2026年春の両授業の平均成績はC+で、GPA 2.3に相当した
LLM依存と不正行為の問題
- Dan Garciaは2026年春にCS 10 “The Beauty and Joy of Computing”とCS 61A “The Structure and Interpretation of Computer Programs”の両方を担当した
- GarciaはClaude、ChatGPT、Google Geminiのような大規模言語モデルの利用による学業不正の増加を、異常に高い不合格率の“primary driver”と見ている
- 一部の不合格成績は不正行為の摘発と懲戒手続きへの付託に起因し、別のケースでは学生がLLMに過度に依存した結果、試験で準備不足だったとみられる
- 2026年春のCS 10では、ほぼ30人がtake-home examでの不正行為で摘発された
曲線調整のない採点方式
- Garciaの2つの授業は、曲線調整ではなく、各letter gradeに対応する得点基準で採点された
- この方式では、学生の成績は他の学生の成績に依存しない
- Garciaは、各letter gradeの基準を公開し、学生にその基準へ到達する機会を多く与える方式を好んでいる
- Garciaは、Harvardのように一部の学生だけがAを取れる方式に強く反対しており、曲線調整は実際の問題を隠すと考えている
数学の準備度とEECS 127の苦戦
- GarciaはAIへの過度な依存に加え、多くの学生が数学的な準備不足だと見ており、Gireeja Ranadeも同じ懸念を共有している
- Ranadeの2026年春のEECS 127 “Optimization Models in Engineering”はF比率16.8%を記録し、EECS学科が上級科目の“typical”なD・F比率として示す5%を大きく上回った
- EECS 127の学生には、線形代数、ベクトル微積分、数学的証明を履修済みであることが期待されていたが、Ranadeはオフィスアワーで多くの学生が線形代数に苦労しているのを確認した
- ある学生は、UC Berkeleyで受講した線形代数の授業の宿題と試験に“open-internet, open-AI policy”があったとRanadeに話した
- GarciaとRanadeは、UCシステムのSTEM入学でACTとSATの標準化試験スコア再導入を求める請願に署名した1,300人超のUC教員の一員である
人員不足と学生参加の減少
- EECS 127には以前、教授とTAチームの指導を受ける期末プロジェクトがあり、Ranadeはほとんどの学生がこの部分で高得点を取ると見ていた
- 2026年には人員不足のため、Ranadeはこの期末プロジェクトを授業から外した
- EECS学科長Jelani NelsonのX投稿によると、キャンパスはEECS TAの高い時給のため、学部CSの登録者数と学部TA数の両方を削減せざるを得なかった
- Ranadeのオフィスアワーは以前は人であふれていたが、今学期は学生に頻繁に参加を勧めても参加が非常に少なかった
- Garciaも過去2学期にわたりオフィスアワー出席不足を同様に経験し、初めて誰も来ないオフィスアワーを経験した
授業再設計と学習姿勢
- Garciaは今後、授業初日に2026年春に起きたことを知らせ、追加の補助的支援が必要な学生を見つける方法を探す計画だ
- RanadeはAI時代には、教授は学生に「少なくではなく、もっと多く」を教えるべきだと考えている
- Ranadeは、学生たちが競争的な世界でリーダーになるために必要な批判的思考と分析的思考を身につけてほしいと望んでいる
- 両教授とも、学生は難しい問題にもっと慣れる必要があると見ている
- Garciaは同僚の言葉である「Confusion is the sweat of learning」を引用し、多くの学生はその「汗」を十分に流していないと見ている
1件のコメント
Hacker Newsの意見
もし学生の頃にLLMがあったら、宿題を「早く終わらせる」ために使って、試験は全部ひどい結果になっていたと思うので、今の学生にはある程度共感する。
今は主に博士たちと一緒に働いているが、いつも最上位だった人たちでさえ、思考能力が急速に落ちているのが見える。LLMが90%やってくれないと、ブレインストーミング、コーディング、深い思考、文章作成ができない人が増えたし、独創的な思考に必要な30分間静かに一人で考えることすら難しくなっている。
大人には試験がなく、LLMのおかげでアウトプット量は維持されるので、認知低下は測定しにくいだろうが、すでに身の回りのあちこちで起きていると思う。否定したかったが、もうあまりにも明白で無視しづらい。
暗算で素早くやっていた単純な算術や百分率も、今では電卓やスプレッドシート頼みだし、雑学的な知識はポケットの中のインターネットRAMに預けてしまっている。「ああ、前は知ってたのに調べないと」という感覚には慣れている。もしかするとLLM以前に、すでに個人的な愚鈍さの底に達していたのかもしれない。
ただ、最近のコミュニケーションの状態はものすごい精神的負担に感じる。メール、ボイスメール、チャット、オンライン、SMS、私用、仕事、家庭、子ども、家族、友人、Messages、Messenger、WhatsAppなど、同時に無数の会話やスレッドを回さなければならない。それでも周りの人よりずっとつながりが薄い方だ。処理しきれないので、ほとんどのニュースとあらゆるスポーツを断った。
自分の脳はインターネット以前に形作られていて、アナログからデジタルへの変換過程が限界に達している感じがする。少なくとも非常に損失の大きい変換のように感じる。
新しい職場で新しいコードベースを学んでいるところだが、AIは本当に諸刃の剣だ。一方ではコードベースについて質問するときに非常に有用だが、注意せず、調べる前に修正案を適用させてしまうと、コードベースをまったくきちんと学べない。理解を保つには、実際に新しいコードを自分で書いて、必要な精神的筋肉を使わなければならない。
同時に、この大きなコードベースはAIの限界も示している。理解なしに雰囲気で機能を押し込めば、問題を大量に生むしかない。ピンポイントのバグ修正ですら、LLMが見落とす意図しない結果が多い。悪いコードベースではないが、最前線のモデルでも手こずる規模だ。だから「AIの問題はより多くのAIで解けるので、コードベースを理解する必要はない」という主張は、今のところ成り立たないと思う。
何か大胆な措置が必要だ。高校の数学の授業では今でも「電卓禁止」の制限が多かったし、長い算術計算は学習の妨げになると感じて嫌っていた。だから学生が紙だけを使う教育方式に反発しうるのは理解できるが、高品質な宿題マシンがすぐ隣にある状況で何を学べるのか、よく分からない。
学生には望むAIツールを使わせつつ、専門的に使う方法を案内し、本当に身につけるべき技能と知識については、オフライン・対面で早い段階から頻繁に試験すべきだ。そして不正行為にはFを与えるのではなく、停学にするべきだと思う。
数年前、ある高校教師が講義をYouTubeに上げて生徒が各自で見られるようにし、授業時間はインタラクション・質問・試験に使っていた、という記事を読んだ。
修正: Claudeの方が検索より速かった。2007年の高校化学教師2人の事例で、反転授業のことだった https://fltmag.com/the-flipped-classroom/
「認知低下」とまでは感じないが、かなり怠け者になったのは分かる。コーディングを始めたばかりの頃には日常だったことが、今では重く感じられる。
記事タイトルが示唆するものとは異なり、本当の理由は記事中のある段落に隠れている可能性が高い。「GarciaとRanadeは、1,300人を超えるUC教員とともに、UCシステムのSTEM入学でACTとSATの標準試験スコアの復活を求める請願に署名した。請願と公開書簡は、学生の数学の準備度に関する同様の懸念を詳述している」という部分だ。
COVID前後で多くの上位大学が公平性を理由に入学試験要件の廃止を試したが、ほぼすべての場所で失敗し、すでにかなりの数の大学が元に戻している。Yaleは「パンデミック前後の研究で、あらゆる出願要素の中で試験スコアが将来のYaleでの成績を予測する単一最強の指標であり、これは家庭収入や人口統計変数を統制した後も同じで、ACT/SATだけでなくAP・IBのような科目ベースの試験でも当てはまる」と述べている https://archive.is/8zxfo
そのリンクは元ページが削除されたためアーカイブだ。Yaleは一時、スコア提出の有無を選べる「test flexible」戦略を試したが、すぐに放棄して試験スコア要求に戻った。
SAT/ACT平均が最も高いアジア系学生を減らして採るための代替策だったと見るほかない。まもなく同じ学長から、人種的多様性が増したとして変化を称賛するメールが届き、メールの前後の数値ではアジア系の比率が下がり、それ以外は増えていた。
CS教授として、つい昨日並列コンピューティングの授業のプロジェクト討論を行ったが、3グループのうち1グループは明らかにChatGPT流だった。LLMがアーキテクチャなどについて下した選択すら理解していなかった
こういう学生を見抜く方法は、以前ほかの学生から写したケースと似ている。「自分で首を吊る縄を渡す」ようなもので、説明を求めていくと意図せず袋小路に入り込んでいく
疑わしいときは、「率直に言おう。このコードのうちどこまでが君のもので、どこまでがChatGPTのものなんだ?」のように正直さに訴え、同じ週に締切がいくつもあったかもしれない、といった共感も示すのがよいと思う。それでも、正しいやり方で取り組むべきだという教訓を与える機会は逃すべきではない
ほかの2グループもLLMは使っていたが、高レベルの設計やアーキテクチャ支援として使っていた。コードを100%手で書いたわけではないにせよ、明らかに自分たちが責任を持っており、問題解決に使った推論や戦略を説明できていた
同僚たちとまだ多くのプロジェクトを確認しなければならないので、こうした事例数を数えてほしいと頼んでいるが、現時点では3件中1件、つまり**33%**だ
ライブラリコードをコピー&ペーストしてプロジェクトを作るのも許容したのだろうか? そうでないなら、LLMが生成したコードを使うのはなぜ違うのか気になる
人間というのは、あらゆる危機の中へ夢遊病者のように歩いて入り、何一つ合意できないまま、いざそこに着くと原因についてすら合意できない奇妙な存在だ
もうまともに「工学」や「科学」ができなくなる地点に達したら、この先10年は、問題が本当にAIだったのか、AIだったとしても避けられなかったのか、誰にもあるいは全員に責任があるのかを議論して過ごすことになるだろう。繰り返しだ。しかも私たちは今日ここで暗い未来を見ながら、また一歩前に進んでいる
社会が自律的に調整すると仮定しているのだろうか。ある程度はそうだと思うが、自律的調整のコストは本当に高く、苦痛も大きい。自分たちが最初に苦しむ側ではない可能性があるなら、そのコストを受け入れられると考えているのだろうか
これは文化的進化であり、市場もそうやって動く。中央計画でも期待していたのか
成績データはhttps://berkeleytime.com/gradesからのものだ
自分の選んだ物語を補強する授業だけを選んだのではないかと気になったので、現在も開講中のすべてのCS科目について、Fの比率を赤線で、当該科目が直近に開講された学期の成績付与数を水色の棒で表示し、降順に並べてみた
懸念は当たっているようだった。前のほうのチャートをいくつか見ると、ここ数学期でF比率の大幅な増加は見られない
https://x.com/rahimnathwani/status/2062431813143019525?s=61
教員には低評価をあまり付けないようにするインセンティブがある。低い成績は通常、授業評価を下げ、それが昇給や昇進に影響しうるし、低い成績は事務側の余計な関心を呼び込み、そんなものはどの教員も望まない
1月に娘が数学の授業で苦労していたので、Claudeでかなり集中的な練習問題プリント生成ツールを作った。娘が苦手としている概念を反復練習できるよう問題を作らせた
効果はあり、従来のやり方だったらはるかに難しかっただろう
このツールは解答用紙と解説セットを含むPDFを生成し、問題を複数の手法で解いてくれるので、娘の解き方をより簡単に確認でき、素早く反復できた
強力なツールだ。結局のところ、道具をどう使うかの問題に戻る。より良くなるために使うのか、それとも近道を選ぶのか
皆が「正しい」やり方をするなら問題はないが、社会的インセンティブは複雑で矛盾しており、多くの人には目先の近道のほうが魅力的に見える
これは技術の問題であると同時に社会的問題でもある
別件のようにも見えるが、「UC Berkeleyの数学者たちが主導する600人超のUniversity of California教員が、科学・技術・工学・数学の志願者に対する標準化試験要件の復活を求めている。6年間の試験なし入学では準備度を信頼性高く評価できず、教員が新入生に中学数学を教えることが増えたためだ」
https://archive.ph/18spS
そして、そこにありうる利点は何なのか
LLMが本当にかなり心配。
15歳の息子がいて、Google Family Linkでスマホの利用を管理している。基本的にはかなり開放的で、インストール通知を受け取る程度だが、Geminiは強く禁止している。
危険性についてはこれまで長く話してきた。
息子は友人たちがLLMを頻繁に使っていると言っていて、それが試験の点数の理由ではないかと疑っている。友人の中には試験が20〜40%台の一方で、うちの息子は過去問を勉強し、復習の際に質問に答えながら80%以上を取っている。
AI事業者が学生がLLMで宿題の問題を解いているかどうかを気にしないのは明らかなので、将来が心配だ。
AIを危険としてだけ見るのではなく、息子が学習を加速・強化するためにどう活用できるかを見るべきだ。むしろ、従来うまくいかなかった集団のデータを隠すために標準化試験をなくそうとする政治的環境こそが本当の危険だ。
「ガイドラインでは、下位科目の一般的なGPAは2.8〜3.3の範囲に収まるべきだとしている。Berkeleytimeによれば、2026年春の両授業の平均成績はC+で、これはGPA 2.3に相当する」
Calの卒業生として、成績インフレに歯止めをかけようとしているのを見るのは本当にうれしい。自分はそのGPAを取るために本当に一生懸命やったので、CalがYaleのようにAとA-を79%もばらまく方向に進んで、自分の努力が値打ちを失うのはとても嫌だ: https://yaledailynews.com/articles/professors-face-grading-dilemma-too-many-a-s-little-taste-for-limits
それでも、高成績 + かなり前の卒業は依然としてシグナルとして残る。
意図的に授業の質を下げたり、試験で学生を罠にはめようとしたりしても、誰の教育成果も高まらない。成績インフレに文句を言う人たちは、公教育がなぜ存在するのかを完全に忘れている。
残念だ。最近、数学を学び直す楽しい取り組みを始めたのだが、問題を解きながらGemini Liveモードに確認や提案を求め、ときには段階を追って進めてもらっている。
まるでとても忍耐強い教授がすぐ隣に立っているようで、かなり楽しかった。これまでやった数学学習体験の中でも最高に近く、Geminiに好かれ続けるために賄賂や贈り物を送る必要もない。
一方で、自分で考えもせずにLLMに作業を完全に終わらせてしまうなら、それは自分自身に対する不正行為のように聞こえる。