基礎からLLMを構築してみる : 3時間コーディングワークショップ
(magazine.sebastianraschka.com)- 週末に数時間を使って大規模言語モデル(LLM)を理解したい人向けに、実装、訓練、活用に関する3時間のコーディングワークショップのプレゼンテーションを用意した
- 以下は動画で扱う内容を示す目次(動画自体には、関心のあるトピックへ直接移動できるクリック可能なチャプターマークあり)
目次
-
0:00 – ワークショップ概要
-
2:17 – Part 1: LLM紹介
-
9:14 – ワークショップ資料
-
10:48 – Part 2: LLM入力データを理解する
-
23:25 – シンプルなトークナイザークラス
-
41:03 – Part 3: LLMアーキテクチャをコーディングする
-
45:01 – GPT-2とLlama 2
-
1:07:11 – Part 4: 事前学習
-
1:29:37 – Part 5.1: 事前学習済み重みの読み込み
-
1:45:12 – Part 5.2: LitGPTによる事前学習済み重み
-
1:53:09 – Part 6.1: 指示チューニング
-
2:08:21 – Part 6.2: LitGPTによる指示チューニング
-
2:26:45 – Part 6.3: ベンチマーク評価
-
2:36:55 – Part 6.4: 対話性能評価
-
2:42:40 – まとめ
-
いつものテキスト中心のコンテンツとは少し違うが、数か月前に実施した際に非常に良い反応があったため、もう一度やってみるのがよさそうだった
-
楽しく視聴してほしい!
参考資料
- Build an LLM from Scratch 書籍
- Build an LLM from Scratch GitHubリポジトリ
- ワークショップのコードを含むGitHubリポジトリ
- このワークショップ用のLightning Studio
- LitGPT GitHubリポジトリ
Ahead of AI の購読
- Sebastian Raschkaが2年前に始めたプロジェクト
- Ahead of AIは機械学習とAI研究を専門とし、絶えず変化する分野で先を行きたい何万人もの研究者や実務者に読まれている
GN⁺の要約
- このワークショップは、LLMをゼロから実装して訓練する方法を学びたい人にとって非常に有用
- GPT-2やLlama 2のようなモデルを扱い、事前学習済み重みを読み込み、指示チューニングを行う方法を説明している
- 機械学習とAI研究に関心のある人にとって、非常に興味深く役立つ内容になりうる
- 類似機能を持つ他のプロジェクトとしては、Hugging FaceのTransformersライブラリやOpenAIのGPTモデルがある
1件のコメント
Hacker Newsの意見
「基本に立ち返るのは常によい」という意見とともに、共有に感謝
「無知で申し訳ないが、これがAndrej Karpathyの https://www.youtube.com/watch?v=kCc8FmEb1nY とどう違うのか気になる」という質問
「Sebastianの文章はよい」という意見とともに、本を期待