Andrej Karpathyによる「ChatGPTのようなLLMの深掘り分析」動画の要約

(anfalmushtaq.com)

2 ポイント投稿者 GN⁺ 2025-02-11 | 1件のコメント | WhatsAppで共有

この深掘り分析は誰のためのものか？

LLMの実際の動作方式を理解したい人: 表面的な理解を超えて、LLMの動作原理を知りたい人。
混乱しやすいファインチューニング用語を理解したい人: chat_template や ChatML のような用語を理解したい人。
プロンプトエンジニアリングを向上させたい人: どのようなプロンプトがよりうまく機能するのかを理解したい人。
ハルシネーションを減らしたい人: LLMが誤った情報を生成しないようにしたい人。
DeepSeek-R1の重要性を理解したい人: 現在注目されているDeepSeek-R1の重要性を知りたい人。

事前学習データ

インターネット

LLMはインターネットをクローリングして膨大なテキストデータセットを構築する。
生データは重複コンテンツ、低品質なテキスト、無関係な情報であふれているため、学習前に徹底したフィルタリングが必要となる。
例えば、FineWebデータセットには12億件以上のWebページが含まれている。

トークン化

トークン化は、モデルがテキストを処理する前に小さな断片（トークン）へ分割する方法である。
Byte Pair Encoding (BPE) のような技術が使われる。
GPT-4は100,277個のトークンを使用する。

ニューラルネットワークの入出力

トークン化されたデータはニューラルネットワークに入力される。
モデルは学習したパターンに基づいて次のトークンを予測する。
誤差を減らすために重みが調整される。

ニューラルネットワーク内部

モデル内部では、数十億個のパラメータが入力トークンと相互作用し、次のトークンに対する確率分布を生成する。
モデルアーキテクチャは、速度、精度、並列化のバランスを取るように設計されている。

推論

LLMは決定論的な出力を生成せず、確率的に動作する。
実行のたびに出力はわずかに異なる。
このランダム性によってLLMは創造的になれる一方、ときに誤った情報を生成することもある。

GPT-2

OpenAIが2019年に発表したGPT-2は、初期のトランスフォーマーベースLLMの一例である。
16億個のパラメータ、1024トークンのコンテキスト長、およそ1,000億個のトークンで学習された。
Andrej Karpathyは llm.c を使ってGPT-2を672ドルで再現した。

オープンソースの基盤モデル

一部の企業は大規模LLMを学習させ、基盤モデルを無料で公開している。
基盤モデルは生のインターネットテキストで学習されているため、補完は生成できても人間の意図は理解できない。
OpenAIはGPT-2をオープンソースとして公開した。
MetaはLlama 3.1（405Bパラメータ）をオープンソースとして公開した。

事前学習から事後学習へ

基盤モデルは多くのハルシネーションを生成する。
事後学習は、より良い応答ができるようモデルをファインチューニングする。
事後学習は事前学習よりもはるかに安価である。

教師ありファインチューニング（SFT）

データ対話

基盤モデルはインターネットデータで学習された後、人間/アシスタントの対話で事後学習される。
対話テンプレートを使って、モデルが対話の構造を理解できるようにする。

ハルシネーション、ツール利用、メモリ

LLMの主要な問題はハルシネーションである。
MetaはLlama 3の論文で、事実性を改善する方法を説明している。
ツールを使ってハルシネーションを減らす方法もある。

強化学習

モデルはインターネットデータで学習された後も、知識を効果的に使う方法を知らない。
強化学習（RL）は試行錯誤を通じてモデルを改善する。

RLの動作方式

RLは、モデルがさまざまな解法を試し、最適な解法を見つけられるようにする。
例えば、15個の解法を生成し、そのうち4個だけが正解することがある。

人間のフィードバックによる強化学習（RLHF）

検証できないドメインでは人間を含める必要がある。
RLHFは人間のフィードバックを使ってモデルを改善する。

今後の展望

マルチモーダル機能: テキストだけでなく、画像、音声、動画も理解し生成する。
エージェントベースのモデル: 単一タスクを超え、長期記憶、推論、ミスの修正が可能になる。
普遍的で目に見えないAI: ワークフローに自然に統合される。
コンピュータ利用AI: ソフトウェアと相互作用し、テキスト生成以上の作業を行う。

LLMを見つける方法

独占モデル: OpenAI（GPT-4）、Google（Gemini）、Anthropic（Claude）など。
オープンウェイトモデル: DeepSeek、Meta（Llama）など。
ローカル実行: Ollama または LM Studio を使用。
基盤モデル: Hyperbolic を探索。

1件のコメント

GN⁺ 2025-02-11

Hacker Newsの意見

元の動画がHacker Newsの1ページ目から消えた後も、議論するのに良い場所を探している
動画を見ながら、いくつか気になる点があった
- 数学とLLMs
  - AndrejがLLMに示した例が、なぜほとんど計算問題なのか気になる
  - LLMの計算能力は強力で有用になってきているが、本質的な能力ではないと思う
  - LLMの中核的な能力を示すプロンプトと、数学的な計算は分けてほしい
  - 数学的能力に関する議論や、LLMが数学を行うことの妥当性について、良い参考資料があれば知りたい
- メタ
  - Andrejは、LLMが別のLLMの訓練や評価に使われる状況に軽く触れていたが、これについての議論はあまりない
  - LLMを使って別のLLMを訓練・評価することの限界やリスクについて、もっと知りたい
  - 初期の結果や進展が、より強力な技術開発に即座にフィードバックされる点が、マンハッタン計画や原子兵器に似ていると感じる
Metaのハルシネーション問題への対処アプローチが興味深い
- 訓練データの一部を抽出し、Llama 3で事実ベースの質問を生成する
- Llama 3が回答を生成し、元データと比較してスコアを付ける
- 間違っていた場合、モデルが誤答を認識して拒否するように訓練する
- これはMLエンジニアの自然な傾向に反しており、モデルに「知らないこと」を認識させるのが重要だ
Andrejの動画は素晴らしいが、RLの部分の説明はやや曖昧に感じる
- 正しい答えに対して、どのように訓練するのか気になる
- 推論過程を収集して教師あり学習のように訓練するのか、それともスコアを計算して損失関数として使うのか気になる
- 報酬が非常に疎になる可能性があり、問題が難しすぎてLLMが正しい答えを生成できない場合はどうなるのか気になる
- パラメータ更新は逐次的なのに、LLMの訓練をどうやって並列化できるのか気になる
元の動画の53分あたりで、LLMが学習したテキストに基づいて引用する正確さを示している
- 大企業が法廷で、これが著作権侵害ではないとどうやって説得したのか気になる
- もし私がディズニーのキャラクターを描くようにモデルを訓練したら、すぐに訴えられるだろうと想像する
モデルが「完全に」オープンソースになるには、モデル自体と実行方法に加えて、データを訓練できるプログラムも必要だ
- OSIのオープンソースAI定義を参照のこと
LLMに関する記事はたくさん読んでいて、一般的にどう動くかは理解しているが、他のモデルがSOTAモデルほどうまく動かない理由がいつも気になっている
- 現在のモデルアーキテクチャの歴史と、その理由が気になる
今日、良いスレッドを見た: [リンク]
彼のLLC in Cが、彼の講座のための足がかりに過ぎなかったのは残念だ
おそらく本当に素晴らしい講義の、素晴らしい要約だ
- 元の内容を追ってみようかと考えている
動画は見ていないが、TL;DRのトークン化の部分が気になった
- リンク先の記事でトークン化されたテキストを見ると、"I View"ではなく実際にはパイプ "|" だ
- @miletusがHacker Newsのコメントに投稿したリンクの3段階目では、トークン化されたテキストは "|Viewing Single (Post From) . . ." となっている
- 大文字の使い方（View, Single）の方が、この文の部分を見るとより意味が通る

Andrej Karpathyによる「ChatGPTのようなLLMの深掘り分析」動画の要約

この深掘り分析は誰のためのものか？

事前学習データ

インターネット

トークン化

ニューラルネットワークの入出力

ニューラルネットワーク内部

推論

GPT-2

オープンソースの基盤モデル

事前学習から事後学習へ

教師ありファインチューニング（SFT）

データ対話

ハルシネーション、ツール利用、メモリ

強化学習

RLの動作方式

人間のフィードバックによる強化学習（RLHF）

今後の展望

LLMを見つける方法

関連記事

1件のコメント

Hacker Newsの意見