AI利用と数学力低下の中、BerkeleyのCS授業で不合格成績が急増

(dailycal.org)

1 ポイント投稿者 GN⁺ 2026-06-05 | 1件のコメント | WhatsAppで共有

BerkeleyのCS授業の不合格率は2026年春のCS 10で35.3%、CS 61Aで10.6%となり、過去学期より大幅に上昇し、初級科目のD・F比率7%および平均GPA 2.8〜3.3というEECS指針から外れた
Dan GarciaはClaude、ChatGPT、Google GeminiのようなLLM利用によって学業不正が大きく増えたことを、異常な不合格率の“primary driver”と見ており、CS 10ではほぼ30人がtake-home examでの不正行為で摘発された
2つの授業は曲線調整なしで公開された得点基準に基づいて成績を付けており、学生の成績は他の学生の成績に左右されず、Garciaは曲線調整が問題を隠すと考えている
Gireeja RanadeのEECS 127も数学の準備不足と人員不足に直面し、F比率16.8%を記録した。従来の期末プロジェクトはTA不足のため外され、オフィスアワー参加も低下した
AI時代のBerkeleyのCS・EECS授業は、学生が難しい問題や混乱に耐えながら批判的・分析的思考を身につけられるよう、より多く教え、補助的支援を拡充する方向で見直しが進んでいる

不合格率の急上昇と成績指針からの逸脱

Berkeleytimeによると、2026年春はCS 10の学生の35.3%、CS 61Aの学生の10.6%がFを受けた
2025年春と2024年春には、両授業ともF比率が10%を超えていなかった
EECS学科の成績指針では、CS 10やCS 61Aのような初級科目でDとFを受ける学生の比率を7%としている
指針上、初級科目の一般的なGPA範囲は2.8〜3.3だが、2026年春の両授業の平均成績はC+で、GPA 2.3に相当した

LLM依存と不正行為の問題

Dan Garciaは2026年春にCS 10 “The Beauty and Joy of Computing”とCS 61A “The Structure and Interpretation of Computer Programs”の両方を担当した
GarciaはClaude、ChatGPT、Google Geminiのような大規模言語モデルの利用による学業不正の増加を、異常に高い不合格率の“primary driver”と見ている
一部の不合格成績は不正行為の摘発と懲戒手続きへの付託に起因し、別のケースでは学生がLLMに過度に依存した結果、試験で準備不足だったとみられる
2026年春のCS 10では、ほぼ30人がtake-home examでの不正行為で摘発された

曲線調整のない採点方式

Garciaの2つの授業は、曲線調整ではなく、各letter gradeに対応する得点基準で採点された
この方式では、学生の成績は他の学生の成績に依存しない
Garciaは、各letter gradeの基準を公開し、学生にその基準へ到達する機会を多く与える方式を好んでいる
Garciaは、Harvardのように一部の学生だけがAを取れる方式に強く反対しており、曲線調整は実際の問題を隠すと考えている

数学の準備度とEECS 127の苦戦

GarciaはAIへの過度な依存に加え、多くの学生が数学的な準備不足だと見ており、Gireeja Ranadeも同じ懸念を共有している
Ranadeの2026年春のEECS 127 “Optimization Models in Engineering”はF比率16.8%を記録し、EECS学科が上級科目の“typical”なD・F比率として示す5%を大きく上回った
EECS 127の学生には、線形代数、ベクトル微積分、数学的証明を履修済みであることが期待されていたが、Ranadeはオフィスアワーで多くの学生が線形代数に苦労しているのを確認した
ある学生は、UC Berkeleyで受講した線形代数の授業の宿題と試験に“open-internet, open-AI policy”があったとRanadeに話した
GarciaとRanadeは、UCシステムのSTEM入学でACTとSATの標準化試験スコア再導入を求める請願に署名した1,300人超のUC教員の一員である

人員不足と学生参加の減少

EECS 127には以前、教授とTAチームの指導を受ける期末プロジェクトがあり、Ranadeはほとんどの学生がこの部分で高得点を取ると見ていた
2026年には人員不足のため、Ranadeはこの期末プロジェクトを授業から外した
EECS学科長Jelani NelsonのX投稿によると、キャンパスはEECS TAの高い時給のため、学部CSの登録者数と学部TA数の両方を削減せざるを得なかった
Ranadeのオフィスアワーは以前は人であふれていたが、今学期は学生に頻繁に参加を勧めても参加が非常に少なかった
Garciaも過去2学期にわたりオフィスアワー出席不足を同様に経験し、初めて誰も来ないオフィスアワーを経験した

授業再設計と学習姿勢

Garciaは今後、授業初日に2026年春に起きたことを知らせ、追加の補助的支援が必要な学生を見つける方法を探す計画だ
RanadeはAI時代には、教授は学生に「少なくではなく、もっと多く」を教えるべきだと考えている
Ranadeは、学生たちが競争的な世界でリーダーになるために必要な批判的思考と分析的思考を身につけてほしいと望んでいる
両教授とも、学生は難しい問題にもっと慣れる必要があると見ている
Garciaは同僚の言葉である「Confusion is the sweat of learning」を引用し、多くの学生はその「汗」を十分に流していないと見ている

1件のコメント

GN⁺ 2026-06-05

Hacker Newsの意見

もし学生の頃にLLMがあったら、宿題を「早く終わらせる」ために使って、試験は全部ひどい結果になっていたと思うので、今の学生にはある程度共感する。
今は主に博士たちと一緒に働いているが、いつも最上位だった人たちでさえ、思考能力が急速に落ちているのが見える。LLMが90%やってくれないと、ブレインストーミング、コーディング、深い思考、文章作成ができない人が増えたし、独創的な思考に必要な30分間静かに一人で考えることすら難しくなっている。
大人には試験がなく、LLMのおかげでアウトプット量は維持されるので、認知低下は測定しにくいだろうが、すでに身の回りのあちこちで起きていると思う。否定したかったが、もうあまりにも明白で無視しづらい。
- 自分の能力がLLMの使用後に特別落ちたという感覚はない。学部は20年前に終えていて、かつて鋭かった数学力は卒業後5〜10年で大きく衰えた。
  暗算で素早くやっていた単純な算術や百分率も、今では電卓やスプレッドシート頼みだし、雑学的な知識はポケットの中のインターネットRAMに預けてしまっている。「ああ、前は知ってたのに調べないと」という感覚には慣れている。もしかするとLLM以前に、すでに個人的な愚鈍さの底に達していたのかもしれない。
  ただ、最近のコミュニケーションの状態はものすごい精神的負担に感じる。メール、ボイスメール、チャット、オンライン、SMS、私用、仕事、家庭、子ども、家族、友人、Messages、Messenger、WhatsAppなど、同時に無数の会話やスレッドを回さなければならない。それでも周りの人よりずっとつながりが薄い方だ。処理しきれないので、ほとんどのニュースとあらゆるスポーツを断った。
  自分の脳はインターネット以前に形作られていて、アナログからデジタルへの変換過程が限界に達している感じがする。少なくとも非常に損失の大きい変換のように感じる。
- 実際の認知能力がAI使用で落ちたとは思わないが、忍耐力と集中時間は確実にかなり短くなったと感じる。
  新しい職場で新しいコードベースを学んでいるところだが、AIは本当に諸刃の剣だ。一方ではコードベースについて質問するときに非常に有用だが、注意せず、調べる前に修正案を適用させてしまうと、コードベースをまったくきちんと学べない。理解を保つには、実際に新しいコードを自分で書いて、必要な精神的筋肉を使わなければならない。
  同時に、この大きなコードベースはAIの限界も示している。理解なしに雰囲気で機能を押し込めば、問題を大量に生むしかない。ピンポイントのバグ修正ですら、LLMが見落とす意図しない結果が多い。悪いコードベースではないが、最前線のモデルでも手こずる規模だ。だから「AIの問題はより多くのAIで解けるので、コードベースを理解する必要はない」という主張は、今のところ成り立たないと思う。
- 大学時代、Google Translateでフランス語を学ばないまま切り抜けた。幸い品質があまりに悪かったので出力を細かく確認する必要はあったが、それでも基本的な言語能力すら身につけないまま2学期を通過できてしまった。
  何か大胆な措置が必要だ。高校の数学の授業では今でも「電卓禁止」の制限が多かったし、長い算術計算は学習の妨げになると感じて嫌っていた。だから学生が紙だけを使う教育方式に反発しうるのは理解できるが、高品質な宿題マシンがすぐ隣にある状況で何を学べるのか、よく分からない。
- LLMがあったら自分も終わっていたと思う。教師と大学は教え方と評価の仕方を変える必要があるのかもしれない。
  学生には望むAIツールを使わせつつ、専門的に使う方法を案内し、本当に身につけるべき技能と知識については、オフライン・対面で早い段階から頻繁に試験すべきだ。そして不正行為にはFを与えるのではなく、停学にするべきだと思う。
  数年前、ある高校教師が講義をYouTubeに上げて生徒が各自で見られるようにし、授業時間はインタラクション・質問・試験に使っていた、という記事を読んだ。
  修正: Claudeの方が検索より速かった。2007年の高校化学教師2人の事例で、反転授業のことだった https://fltmag.com/the-flipped-classroom/
- 博士号もないし頭も良くないが、約1年前から小さなコーディングや数学は意図的に手作業でするようにしている。
  「認知低下」とまでは感じないが、かなり怠け者になったのは分かる。コーディングを始めたばかりの頃には日常だったことが、今では重く感じられる。
記事タイトルが示唆するものとは異なり、本当の理由は記事中のある段落に隠れている可能性が高い。「GarciaとRanadeは、1,300人を超えるUC教員とともに、UCシステムのSTEM入学でACTとSATの標準試験スコアの復活を求める請願に署名した。請願と公開書簡は、学生の数学の準備度に関する同様の懸念を詳述している」という部分だ。
COVID前後で多くの上位大学が公平性を理由に入学試験要件の廃止を試したが、ほぼすべての場所で失敗し、すでにかなりの数の大学が元に戻している。Yaleは「パンデミック前後の研究で、あらゆる出願要素の中で試験スコアが将来のYaleでの成績を予測する単一最強の指標であり、これは家庭収入や人口統計変数を統制した後も同じで、ACT/SATだけでなくAP・IBのような科目ベースの試験でも当てはまる」と述べている https://archive.is/8zxfo
そのリンクは元ページが削除されたためアーカイブだ。Yaleは一時、スコア提出の有無を選べる「test flexible」戦略を試したが、すぐに放棄して試験スコア要求に戻った。
- Berkeleyの学長は学生に2020年のCalifornia Proposition 16に投票するよう呼びかけていたが、これは公立大学での人種ベースの入学を禁じた1996年のProposition 209を覆そうとするものだった。Prop 16は失敗し、その後CalはSAT/ACTスコアを無視し始めた。
  SAT/ACT平均が最も高いアジア系学生を減らして採るための代替策だったと見るほかない。まもなく同じ学長から、人種的多様性が増したとして変化を称賛するメールが届き、メールの前後の数値ではアジア系の比率が下がり、それ以外は増えていた。
- 2021年の標準試験廃止が本当の理由なら、なぜ不合格率の急増がまさに今起きているのか説明が必要だ。
- アメリカ人ではないので文脈を取り違えているかもしれないが、試験スコアなしでの入学がどう運用されていたのか気になる。
- SAT要件は2021年に廃止された。SATを受けていないという事実だけでは、2025年のF比率10%が2026年に35%へ跳ね上がることの説明にはならない。
CS教授として、つい昨日並列コンピューティングの授業のプロジェクト討論を行ったが、3グループのうち1グループは明らかにChatGPT流だった。LLMがアーキテクチャなどについて下した選択すら理解していなかった
こういう学生を見抜く方法は、以前ほかの学生から写したケースと似ている。「自分で首を吊る縄を渡す」ようなもので、説明を求めていくと意図せず袋小路に入り込んでいく
疑わしいときは、「率直に言おう。このコードのうちどこまでが君のもので、どこまでがChatGPTのものなんだ？」のように正直さに訴え、同じ週に締切がいくつもあったかもしれない、といった共感も示すのがよいと思う。それでも、正しいやり方で取り組むべきだという教訓を与える機会は逃すべきではない
ほかの2グループもLLMは使っていたが、高レベルの設計やアーキテクチャ支援として使っていた。コードを100%手で書いたわけではないにせよ、明らかに自分たちが責任を持っており、問題解決に使った推論や戦略を説明できていた
同僚たちとまだ多くのプロジェクトを確認しなければならないので、こうした事例数を数えてほしいと頼んでいるが、現時点では3件中1件、つまり**33%**だ
- 結局のところ、すべてのグループが思考をLLMに外注したのではないか。今後ほかの種類のプロジェクトに応用できる何かを学べたのか疑問だ
- 「ほかの2グループもLLMを高レベルかつアーキテクチャ面で使っていた」のであれば、点数は**3/3、100%**に近いように見える
  ライブラリコードをコピー＆ペーストしてプロジェクトを作るのも許容したのだろうか？そうでないなら、LLMが生成したコードを使うのはなぜ違うのか気になる
- 教授の立場から、LLMと一緒に使うソクラテス式問答法をどう見ているのか気になる。単に「答えをくれ」とプロンプトするより良いのか
- 6年前に並列コンピューティングの授業を受けたが、今でも何も理解していない。LLMを個人チューターのように使っていたら、おそらく理解できていたと思う
- 学生にLLM利用ポリシーとガイドをどう提示したのか気になる
人間というのは、あらゆる危機の中へ夢遊病者のように歩いて入り、何一つ合意できないまま、いざそこに着くと原因についてすら合意できない奇妙な存在だ
もうまともに「工学」や「科学」ができなくなる地点に達したら、この先10年は、問題が本当にAIだったのか、AIだったとしても避けられなかったのか、誰にもあるいは全員に責任があるのかを議論して過ごすことになるだろう。繰り返しだ。しかも私たちは今日ここで暗い未来を見ながら、また一歩前に進んでいる
社会が自律的に調整すると仮定しているのだろうか。ある程度はそうだと思うが、自律的調整のコストは本当に高く、苦痛も大きい。自分たちが最初に苦しむ側ではない可能性があるなら、そのコストを受け入れられると考えているのだろうか
- AIの到来については何十年も警告されてきた。良くも悪くも、大衆文化やSF小説、映画に深く刻み込まれている。だが、実際に何をすべきかを見極めるのはまったく別の問題だ
  これは文化的進化であり、市場もそうやって動く。中央計画でも期待していたのか
- 気候変動の議論も同じように進んだ
- 誰もが夢遊病者のように歩いているわけではない。屋根の上で叫んでいる人は大勢いるが、大衆は簡単に操作される
成績データはhttps://berkeleytime.com/gradesからのものだ
自分の選んだ物語を補強する授業だけを選んだのではないかと気になったので、現在も開講中のすべてのCS科目について、Fの比率を赤線で、当該科目が直近に開講された学期の成績付与数を水色の棒で表示し、降順に並べてみた
懸念は当たっているようだった。前のほうのチャートをいくつか見ると、ここ数学期でF比率の大幅な増加は見られない
https://x.com/rahimnathwani/status/2062431813143019525?s=61
- 記事ではCS 10と61Aを見たと言っているが、記憶が正しければBerkeleyの入門科目だ。なぜこれがチェリーピッキングであり、特に引用された教授の授業のように相対評価ではないなら、合理的な分析の出発点ではないと考えるのか気になる
- 逆に、多くの教員が学生をあまり落第させないよう、単に成績カーブを調整している可能性もある
  教員には低評価をあまり付けないようにするインセンティブがある。低い成績は通常、授業評価を下げ、それが昇給や昇進に影響しうるし、低い成績は事務側の余計な関心を呼び込み、そんなものはどの教員も望まない
1月に娘が数学の授業で苦労していたので、Claudeでかなり集中的な練習問題プリント生成ツールを作った。娘が苦手としている概念を反復練習できるよう問題を作らせた
効果はあり、従来のやり方だったらはるかに難しかっただろう
このツールは解答用紙と解説セットを含むPDFを生成し、問題を複数の手法で解いてくれるので、娘の解き方をより簡単に確認でき、素早く反復できた
強力なツールだ。結局のところ、道具をどう使うかの問題に戻る。より良くなるために使うのか、それとも近道を選ぶのか
- 「より良くなるために使うのか、近道を選ぶのか」が核心なら、社会全体として効率より品質を優先させるインセンティブがどこにあるのかを見る必要がある
  皆が「正しい」やり方をするなら問題はないが、社会的インセンティブは複雑で矛盾しており、多くの人には目先の近道のほうが魅力的に見える
  これは技術の問題であると同時に社会的問題でもある
別件のようにも見えるが、「UC Berkeleyの数学者たちが主導する600人超のUniversity of California教員が、科学・技術・工学・数学の志願者に対する標準化試験要件の復活を求めている。6年間の試験なし入学では準備度を信頼性高く評価できず、教員が新入生に中学数学を教えることが増えたためだ」
https://archive.ph/18spS
- 実際の書簡は見つけにくいが、ここにある: https://ucstudentsuccess.org
- 学生を選別する標準基準をなくす決定は、いったい誰がするのか
  そして、そこにありうる利点は何なのか
LLMが本当にかなり心配。
15歳の息子がいて、Google Family Linkでスマホの利用を管理している。基本的にはかなり開放的で、インストール通知を受け取る程度だが、Geminiは強く禁止している。
危険性についてはこれまで長く話してきた。
息子は友人たちがLLMを頻繁に使っていると言っていて、それが試験の点数の理由ではないかと疑っている。友人の中には試験が20〜40%台の一方で、うちの息子は過去問を勉強し、復習の際に質問に答えながら80%以上を取っている。
AI事業者が学生がLLMで宿題の問題を解いているかどうかを気にしないのは明らかなので、将来が心配だ。
- だからこそ標準化試験が存在する。授業外の時間に費やした努力や訓練を、学業・職場環境で求められる退屈さに十分耐えながら能力として示せるようにするためだ。
  AIを危険としてだけ見るのではなく、息子が学習を加速・強化するためにどう活用できるかを見るべきだ。むしろ、従来うまくいかなかった集団のデータを隠すために標準化試験をなくそうとする政治的環境こそが本当の危険だ。
- 息子さんが何かしたからGoogle Family Linkを入れたのか、それとも最初から入れていたのか気になる。
- Geminiを強く禁止するというのは、もしインターネットが5年前に初めて出てきていたら、息子にインターネットも禁止していたように聞こえる。
「ガイドラインでは、下位科目の一般的なGPAは2.8〜3.3の範囲に収まるべきだとしている。Berkeleytimeによれば、2026年春の両授業の平均成績はC+で、これはGPA 2.3に相当する」
Calの卒業生として、成績インフレに歯止めをかけようとしているのを見るのは本当にうれしい。自分はそのGPAを取るために本当に一生懸命やったので、CalがYaleのようにAとA-を79%もばらまく方向に進んで、自分の努力が値打ちを失うのはとても嫌だ: https://yaledailynews.com/articles/professors-face-grading-dilemma-too-many-a-s-little-taste-for-limits
- 自分が通っていたUCのサブレディットを読んでいたが、今年の合格発表が出ると、合格者からの質問がたくさん投稿されていた。そのうち1/3から1/2くらいが、成績デフレがどれほどひどいのか、他キャンパスと比べてどうなのかを尋ねるものだった。
- 長くは続かないだろう。卒業後に仕事を得るには良い成績が必要なので、低い成績をばらまけば翌年の志願者は減る。
  それでも、高成績 + かなり前の卒業は依然としてシグナルとして残る。
- 不人気な意見だが、公立大学を学問版ハンガーゲームにするのは、その存在目的と正反対だ。公立大学の目的は、教育を受けた市民を育てることだ。
  意図的に授業の質を下げたり、試験で学生を罠にはめようとしたりしても、誰の教育成果も高まらない。成績インフレに文句を言う人たちは、公教育がなぜ存在するのかを完全に忘れている。
残念だ。最近、数学を学び直す楽しい取り組みを始めたのだが、問題を解きながらGemini Liveモードに確認や提案を求め、ときには段階を追って進めてもらっている。
まるでとても忍耐強い教授がすぐ隣に立っているようで、かなり楽しかった。これまでやった数学学習体験の中でも最高に近く、Geminiに好かれ続けるために賄賂や贈り物を送る必要もない。
一方で、自分で考えもせずにLLMに作業を完全に終わらせてしまうなら、それは自分自身に対する不正行為のように聞こえる。

AI利用と数学力低下の中、BerkeleyのCS授業で不合格成績が急増

不合格率の急上昇と成績指針からの逸脱

LLM依存と不正行為の問題

曲線調整のない採点方式

数学の準備度とEECS 127の苦戦

人員不足と学生参加の減少

授業再設計と学習姿勢

関連記事

1件のコメント

Hacker Newsの意見