LLMは例外状況を致命的に恐れている
(twitter.com/karpathy)- Andrej Karpathyは、「LLMは例外(Exception)を致命的に恐れている(mortally terrified)」という表現で、**強化学習(RL)**の過程で生じた副作用を風刺
- 彼は、LLMが例外的な状況に遭遇すると自ら停止したり、過度に防御的に反応したりする点を指摘し、例外は開発プロセスの自然な一部だと強調
- 「RL中にこの哀れなLLMたちにいったい何をしているんだ(what labs are doing to these poor LLMs)」という表現は、訓練過程でモデルが失敗を恐れるよう条件づけられている現実を批判するもの
- Karpathyは、「例外発生時の報酬を改善しよう(improved rewards in cases of exceptions)」という**『LLM福祉請願書(LLM welfare petition)』を提案する冗談を通じて、
モデルが例外を恐れずに扱えるようにするための報酬設計の問題**を風刺 - このツイートは単なるユーモアではなく、RLHFがモデルの探索的な思考や実験的な姿勢を抑制しうる点を指摘するメッセージとして解釈されている
> I don't know what labs are doing to these poor LLMs during RL but they are mortally terrified of exceptions, in any infinitesimally likely case. Exceptions are a normal part of life and healthy dev process. Sign my LLM welfare petition for improved rewards in cases of exceptions.
1件のコメント
Hacker Newsの意見
https://github.com/EnterpriseQualityCoding/FizzBuzzEnterpriseEdition
ただその一方で、普通の人間プログラマも実際にはもっと多くのtry/catchブロックを書くべきだとも思う。ある領域で発生した例外が、どれほどまれでも、システム全体を停止させてはいけない状況はよくある。もちろん逆に停止させるべき場合もあり、ケースバイケースだ
xの後ろにcancelを追加すれば見られる https://xcancel.com/karpathy/status/1976082963382272334