この深掘り分析は誰のためのものか?
- LLMの実際の動作方式を理解したい人: 表面的な理解を超えて、LLMの動作原理を知りたい人。
- 混乱しやすいファインチューニング用語を理解したい人:
chat_template や ChatML のような用語を理解したい人。
- プロンプトエンジニアリングを向上させたい人: どのようなプロンプトがよりうまく機能するのかを理解したい人。
- ハルシネーションを減らしたい人: LLMが誤った情報を生成しないようにしたい人。
- DeepSeek-R1の重要性を理解したい人: 現在注目されているDeepSeek-R1の重要性を知りたい人。
事前学習データ
インターネット
- LLMはインターネットをクローリングして膨大なテキストデータセットを構築する。
- 生データは重複コンテンツ、低品質なテキスト、無関係な情報であふれているため、学習前に徹底したフィルタリングが必要となる。
- 例えば、FineWebデータセットには12億件以上のWebページが含まれている。
トークン化
- トークン化は、モデルがテキストを処理する前に小さな断片(トークン)へ分割する方法である。
- Byte Pair Encoding (BPE) のような技術が使われる。
- GPT-4は100,277個のトークンを使用する。
ニューラルネットワークの入出力
- トークン化されたデータはニューラルネットワークに入力される。
- モデルは学習したパターンに基づいて次のトークンを予測する。
- 誤差を減らすために重みが調整される。
ニューラルネットワーク内部
- モデル内部では、数十億個のパラメータが入力トークンと相互作用し、次のトークンに対する確率分布を生成する。
- モデルアーキテクチャは、速度、精度、並列化のバランスを取るように設計されている。
推論
- LLMは決定論的な出力を生成せず、確率的に動作する。
- 実行のたびに出力はわずかに異なる。
- このランダム性によってLLMは創造的になれる一方、ときに誤った情報を生成することもある。
GPT-2
- OpenAIが2019年に発表したGPT-2は、初期のトランスフォーマーベースLLMの一例である。
- 16億個のパラメータ、1024トークンのコンテキスト長、およそ1,000億個のトークンで学習された。
- Andrej Karpathyは
llm.c を使ってGPT-2を672ドルで再現した。
オープンソースの基盤モデル
- 一部の企業は大規模LLMを学習させ、基盤モデルを無料で公開している。
- 基盤モデルは生のインターネットテキストで学習されているため、補完は生成できても人間の意図は理解できない。
- OpenAIはGPT-2をオープンソースとして公開した。
- MetaはLlama 3.1(405Bパラメータ)をオープンソースとして公開した。
事前学習から事後学習へ
- 基盤モデルは多くのハルシネーションを生成する。
- 事後学習は、より良い応答ができるようモデルをファインチューニングする。
- 事後学習は事前学習よりもはるかに安価である。
教師ありファインチューニング(SFT)
データ対話
- 基盤モデルはインターネットデータで学習された後、人間/アシスタントの対話で事後学習される。
- 対話テンプレートを使って、モデルが対話の構造を理解できるようにする。
ハルシネーション、ツール利用、メモリ
- LLMの主要な問題はハルシネーションである。
- MetaはLlama 3の論文で、事実性を改善する方法を説明している。
- ツールを使ってハルシネーションを減らす方法もある。
強化学習
- モデルはインターネットデータで学習された後も、知識を効果的に使う方法を知らない。
- 強化学習(RL)は試行錯誤を通じてモデルを改善する。
RLの動作方式
- RLは、モデルがさまざまな解法を試し、最適な解法を見つけられるようにする。
- 例えば、15個の解法を生成し、そのうち4個だけが正解することがある。
人間のフィードバックによる強化学習(RLHF)
- 検証できないドメインでは人間を含める必要がある。
- RLHFは人間のフィードバックを使ってモデルを改善する。
今後の展望
- マルチモーダル機能: テキストだけでなく、画像、音声、動画も理解し生成する。
- エージェントベースのモデル: 単一タスクを超え、長期記憶、推論、ミスの修正が可能になる。
- 普遍的で目に見えないAI: ワークフローに自然に統合される。
- コンピュータ利用AI: ソフトウェアと相互作用し、テキスト生成以上の作業を行う。
LLMを見つける方法
- 独占モデル: OpenAI(GPT-4)、Google(Gemini)、Anthropic(Claude)など。
- オープンウェイトモデル: DeepSeek、Meta(Llama)など。
- ローカル実行: Ollama または LM Studio を使用。
- 基盤モデル: Hyperbolic を探索。
1件のコメント
Hacker Newsの意見
元の動画がHacker Newsの1ページ目から消えた後も、議論するのに良い場所を探している
動画を見ながら、いくつか気になる点があった
Metaのハルシネーション問題への対処アプローチが興味深い
Andrejの動画は素晴らしいが、RLの部分の説明はやや曖昧に感じる
元の動画の53分あたりで、LLMが学習したテキストに基づいて引用する正確さを示している
モデルが「完全に」オープンソースになるには、モデル自体と実行方法に加えて、データを訓練できるプログラムも必要だ
LLMに関する記事はたくさん読んでいて、一般的にどう動くかは理解しているが、他のモデルがSOTAモデルほどうまく動かない理由がいつも気になっている
今日、良いスレッドを見た: [リンク]
彼のLLC in Cが、彼の講座のための足がかりに過ぎなかったのは残念だ
おそらく本当に素晴らしい講義の、素晴らしい要約だ
動画は見ていないが、TL;DRのトークン化の部分が気になった