Andrej Karpathy - ChatGPTのようなLLMの詳細分析 [動画]
(youtube.com)- 一般ユーザー向けに、ChatGPTおよび関連製品を動かしている大規模言語モデル(LLM)のAI技術を深く解説した動画(3時間31分)
- モデルがどのように開発されるのかという全体の学習スタックとあわせて、モデルの「心理」をどう捉えるか、実際のアプリケーションでモデルを最大限活用するためのメンタルモデルを扱う
- 1年前に公開した "Intro to LLMs" 動画を、より包括的にしたバージョン
チャプター
00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary
2件のコメント
アンドレイ・カルパシーの動画の欠点(?)は、1.5倍速が絶対に無理なことだと思います。話すのが本当に速いです。 :-)
Hacker Newsのコメント
この人への敬意はとても大きい。彼は人間と機械の間のギャップを埋めるネオのような存在だ。彼のリポジトリや動画から無料で学んだこと:
友人たちには、Andrejは私が大学院で出会った中で最高の講師だったと話している。Stanfordには行っていないが、彼のCS321nのYouTube動画を見た。彼が今も動画を作り続けてくれていて本当にうれしい
彼はtransformerアーキテクチャとトレーニングについて、基本的に同じテーマを扱う動画を5本以上作っている。今回の動画は何が違うのか気になる
彼の"let's build"シリーズが本当に好きだ。高度な内容に加えて、気の利いたPythonのテクニックも学べる
長尺の動画に集中できないので歯がゆい。こういう動画は短い動画よりずっと良い可能性が高い
CS231nプロジェクトの一環として、Pythonのリストを使って逆伝播を実装する方法を今でも覚えている。驚くべきなのは、私がStanfordに通っていなかったことだ
Andrejに感謝している。LLMがどう動作し、どう訓練されるかについてかなり良い理解を持っているが、多くの友人はそうではない。この動画や講義は、彼らにある程度のイメージを与えてくれる
動画を配布する別の方法があればいいのにと思う。YouTubeではコンテンツが最終的に消えてしまう。このコンテンツは重要だと思う。より多くの人がAIの仕組みを知るほど、社会はより強くなるはずだ
全部見た……頬がしびれたが、それだけの価値はあった。Andrejに感謝
私は単純な人間だ。Karpathyの動画を見ると、クリックして見て楽しむ