1 ポイント 投稿者 GN⁺ 2024-09-01 | 1件のコメント | WhatsAppで共有
  • 週末に数時間を使って大規模言語モデル(LLM)を理解したい人向けに、実装、訓練、活用に関する3時間のコーディングワークショップのプレゼンテーションを用意した
  • 以下は動画で扱う内容を示す目次(動画自体には、関心のあるトピックへ直接移動できるクリック可能なチャプターマークあり)

目次

  • 0:00 – ワークショップ概要

  • 2:17 – Part 1: LLM紹介

  • 9:14 – ワークショップ資料

  • 10:48 – Part 2: LLM入力データを理解する

  • 23:25 – シンプルなトークナイザークラス

  • 41:03 – Part 3: LLMアーキテクチャをコーディングする

  • 45:01 – GPT-2とLlama 2

  • 1:07:11 – Part 4: 事前学習

  • 1:29:37 – Part 5.1: 事前学習済み重みの読み込み

  • 1:45:12 – Part 5.2: LitGPTによる事前学習済み重み

  • 1:53:09 – Part 6.1: 指示チューニング

  • 2:08:21 – Part 6.2: LitGPTによる指示チューニング

  • 2:26:45 – Part 6.3: ベンチマーク評価

  • 2:36:55 – Part 6.4: 対話性能評価

  • 2:42:40 – まとめ

  • いつものテキスト中心のコンテンツとは少し違うが、数か月前に実施した際に非常に良い反応があったため、もう一度やってみるのがよさそうだった

  • 楽しく視聴してほしい!

参考資料

  1. Build an LLM from Scratch 書籍
  2. Build an LLM from Scratch GitHubリポジトリ
  3. ワークショップのコードを含むGitHubリポジトリ
  4. このワークショップ用のLightning Studio
  5. LitGPT GitHubリポジトリ

Ahead of AI の購読

  • Sebastian Raschkaが2年前に始めたプロジェクト
  • Ahead of AIは機械学習とAI研究を専門とし、絶えず変化する分野で先を行きたい何万人もの研究者や実務者に読まれている

GN⁺の要約

  • このワークショップは、LLMをゼロから実装して訓練する方法を学びたい人にとって非常に有用
  • GPT-2やLlama 2のようなモデルを扱い、事前学習済み重みを読み込み、指示チューニングを行う方法を説明している
  • 機械学習とAI研究に関心のある人にとって、非常に興味深く役立つ内容になりうる
  • 類似機能を持つ他のプロジェクトとしては、Hugging FaceのTransformersライブラリやOpenAIのGPTモデルがある

1件のコメント

 
GN⁺ 2024-09-01
Hacker Newsの意見
  • 「基本に立ち返るのは常によい」という意見とともに、共有に感謝

  • 「無知で申し訳ないが、これがAndrej Karpathyの https://www.youtube.com/watch?v=kCc8FmEb1nY とどう違うのか気になる」という質問

    • 「いずれにせよ、今夜寝る前に見る予定」という意見
  • 「Sebastianの文章はよい」という意見とともに、本を期待

    • LLMの構成に関する多くの詳細があり、LlamaとOpenAIが訓練データをどのように整理・構造化しているのかについて、さらに掘り下げてほしい
    • 「これが長期的に重要な戦いになる気がする」という意見