2 ポイント 投稿者 GN⁺ 2025-02-11 | 1件のコメント | WhatsAppで共有

この深掘り分析は誰のためのものか?

  • LLMの実際の動作方式を理解したい人: 表面的な理解を超えて、LLMの動作原理を知りたい人。
  • 混乱しやすいファインチューニング用語を理解したい人: chat_templateChatML のような用語を理解したい人。
  • プロンプトエンジニアリングを向上させたい人: どのようなプロンプトがよりうまく機能するのかを理解したい人。
  • ハルシネーションを減らしたい人: LLMが誤った情報を生成しないようにしたい人。
  • DeepSeek-R1の重要性を理解したい人: 現在注目されているDeepSeek-R1の重要性を知りたい人。

事前学習データ

インターネット

  • LLMはインターネットをクローリングして膨大なテキストデータセットを構築する。
  • 生データは重複コンテンツ、低品質なテキスト、無関係な情報であふれているため、学習前に徹底したフィルタリングが必要となる。
  • 例えば、FineWebデータセットには12億件以上のWebページが含まれている。

トークン化

  • トークン化は、モデルがテキストを処理する前に小さな断片(トークン)へ分割する方法である。
  • Byte Pair Encoding (BPE) のような技術が使われる。
  • GPT-4は100,277個のトークンを使用する。

ニューラルネットワークの入出力

  • トークン化されたデータはニューラルネットワークに入力される。
  • モデルは学習したパターンに基づいて次のトークンを予測する。
  • 誤差を減らすために重みが調整される。

ニューラルネットワーク内部

  • モデル内部では、数十億個のパラメータが入力トークンと相互作用し、次のトークンに対する確率分布を生成する。
  • モデルアーキテクチャは、速度、精度、並列化のバランスを取るように設計されている。

推論

  • LLMは決定論的な出力を生成せず、確率的に動作する。
  • 実行のたびに出力はわずかに異なる。
  • このランダム性によってLLMは創造的になれる一方、ときに誤った情報を生成することもある。

GPT-2

  • OpenAIが2019年に発表したGPT-2は、初期のトランスフォーマーベースLLMの一例である。
  • 16億個のパラメータ、1024トークンのコンテキスト長、およそ1,000億個のトークンで学習された。
  • Andrej Karpathyは llm.c を使ってGPT-2を672ドルで再現した。

オープンソースの基盤モデル

  • 一部の企業は大規模LLMを学習させ、基盤モデルを無料で公開している。
  • 基盤モデルは生のインターネットテキストで学習されているため、補完は生成できても人間の意図は理解できない。
  • OpenAIはGPT-2をオープンソースとして公開した。
  • MetaはLlama 3.1(405Bパラメータ)をオープンソースとして公開した。

事前学習から事後学習へ

  • 基盤モデルは多くのハルシネーションを生成する。
  • 事後学習は、より良い応答ができるようモデルをファインチューニングする。
  • 事後学習は事前学習よりもはるかに安価である。

教師ありファインチューニング(SFT)

データ対話

  • 基盤モデルはインターネットデータで学習された後、人間/アシスタントの対話で事後学習される。
  • 対話テンプレートを使って、モデルが対話の構造を理解できるようにする。

ハルシネーション、ツール利用、メモリ

  • LLMの主要な問題はハルシネーションである。
  • MetaはLlama 3の論文で、事実性を改善する方法を説明している。
  • ツールを使ってハルシネーションを減らす方法もある。

強化学習

  • モデルはインターネットデータで学習された後も、知識を効果的に使う方法を知らない。
  • 強化学習(RL)は試行錯誤を通じてモデルを改善する。

RLの動作方式

  • RLは、モデルがさまざまな解法を試し、最適な解法を見つけられるようにする。
  • 例えば、15個の解法を生成し、そのうち4個だけが正解することがある。

人間のフィードバックによる強化学習(RLHF)

  • 検証できないドメインでは人間を含める必要がある。
  • RLHFは人間のフィードバックを使ってモデルを改善する。

今後の展望

  • マルチモーダル機能: テキストだけでなく、画像、音声、動画も理解し生成する。
  • エージェントベースのモデル: 単一タスクを超え、長期記憶、推論、ミスの修正が可能になる。
  • 普遍的で目に見えないAI: ワークフローに自然に統合される。
  • コンピュータ利用AI: ソフトウェアと相互作用し、テキスト生成以上の作業を行う。

LLMを見つける方法

  • 独占モデル: OpenAI(GPT-4)、Google(Gemini)、Anthropic(Claude)など。
  • オープンウェイトモデル: DeepSeek、Meta(Llama)など。
  • ローカル実行: Ollama または LM Studio を使用。
  • 基盤モデル: Hyperbolic を探索。

1件のコメント

 
GN⁺ 2025-02-11
Hacker Newsの意見
  • 元の動画がHacker Newsの1ページ目から消えた後も、議論するのに良い場所を探している

  • 動画を見ながら、いくつか気になる点があった

    • 数学とLLMs
      • AndrejがLLMに示した例が、なぜほとんど計算問題なのか気になる
      • LLMの計算能力は強力で有用になってきているが、本質的な能力ではないと思う
      • LLMの中核的な能力を示すプロンプトと、数学的な計算は分けてほしい
      • 数学的能力に関する議論や、LLMが数学を行うことの妥当性について、良い参考資料があれば知りたい
    • メタ
      • Andrejは、LLMが別のLLMの訓練や評価に使われる状況に軽く触れていたが、これについての議論はあまりない
      • LLMを使って別のLLMを訓練・評価することの限界やリスクについて、もっと知りたい
      • 初期の結果や進展が、より強力な技術開発に即座にフィードバックされる点が、マンハッタン計画や原子兵器に似ていると感じる
  • Metaのハルシネーション問題への対処アプローチが興味深い

    • 訓練データの一部を抽出し、Llama 3で事実ベースの質問を生成する
    • Llama 3が回答を生成し、元データと比較してスコアを付ける
    • 間違っていた場合、モデルが誤答を認識して拒否するように訓練する
    • これはMLエンジニアの自然な傾向に反しており、モデルに「知らないこと」を認識させるのが重要だ
  • Andrejの動画は素晴らしいが、RLの部分の説明はやや曖昧に感じる

    • 正しい答えに対して、どのように訓練するのか気になる
    • 推論過程を収集して教師あり学習のように訓練するのか、それともスコアを計算して損失関数として使うのか気になる
    • 報酬が非常に疎になる可能性があり、問題が難しすぎてLLMが正しい答えを生成できない場合はどうなるのか気になる
    • パラメータ更新は逐次的なのに、LLMの訓練をどうやって並列化できるのか気になる
  • 元の動画の53分あたりで、LLMが学習したテキストに基づいて引用する正確さを示している

    • 大企業が法廷で、これが著作権侵害ではないとどうやって説得したのか気になる
    • もし私がディズニーのキャラクターを描くようにモデルを訓練したら、すぐに訴えられるだろうと想像する
  • モデルが「完全に」オープンソースになるには、モデル自体と実行方法に加えて、データを訓練できるプログラムも必要だ

    • OSIのオープンソースAI定義を参照のこと
  • LLMに関する記事はたくさん読んでいて、一般的にどう動くかは理解しているが、他のモデルがSOTAモデルほどうまく動かない理由がいつも気になっている

    • 現在のモデルアーキテクチャの歴史と、その理由が気になる
  • 今日、良いスレッドを見た: [リンク]

  • 彼のLLC in Cが、彼の講座のための足がかりに過ぎなかったのは残念だ

  • おそらく本当に素晴らしい講義の、素晴らしい要約だ

    • 元の内容を追ってみようかと考えている
  • 動画は見ていないが、TL;DRのトークン化の部分が気になった

    • リンク先の記事でトークン化されたテキストを見ると、"I View"ではなく実際にはパイプ "|" だ
    • @miletusがHacker Newsのコメントに投稿したリンクの3段階目では、トークン化されたテキストは "|Viewing Single (Post From) . . ." となっている
    • 大文字の使い方(View, Single)の方が、この文の部分を見るとより意味が通る