15 ポイント 投稿者 GN⁺ 2026-02-16 | 1件のコメント | WhatsAppで共有
  • 大規模モデルの時代では、データ品質がモデル性能の上限を決定する
  • そのための体系的なデータエンジニアリング知識を提供するオープンソースのガイドブック
  • 事前学習データのクリーニングマルチモーダル整列RAGデータパイプライン合成データ生成など全工程を網羅
  • 5つのパートで13章を構成。さらに5つの実践型キャップストーンプロジェクトと実行可能なコード、アーキテクチャ設計を含み、実務学習を支援
  • Ray、Spark、CLIP、DVCなどのモダンな技術スタックを活用してテキスト・画像・動画データを処理
  • LLM研究者、データエンジニア、MLOps専門家など、AIデータパイプライン構築者にとって実践的な参考書として活用可能

紹介

  • 大規模モデルの時代では、データ品質がモデル性能の限界を決定
    • LLMデータエンジニアリングに関する体系的な資料が不足している現状を補うために制作
  • 本書は事前学習データのクリーニングからマルチモーダル整列、RAG、合成データ生成まで、全体の技術スタックを扱う
    • Common Crawlなどの大規模ノイズデータから高品質コーパスを抽出
    • 画像-テキスト、動画、音声データの収集・クリーニング・整列
    • SFT、RLHF、CoTデータの自動生成
    • 企業向け文書のパースと意味単位分割を含むRAGパイプラインの構築
  • 5つのエンドツーエンドのキャップストーンプロジェクトを通じて、実践中心の学習を提供
  • オンラインで閲覧可能: https://datascale-ai.github.io/data_engineering_book/en/

本書の構成

  • 全体構造は生データからアプリケーションまでの完全なデータエンジニアリングパイプライン
  • 全6パート、13章、5つのプロジェクトで構成
    • Part 1: インフラと中核概念
    • Part 2: テキスト事前学習データエンジニアリング
    • Part 3: マルチモーダルデータエンジニアリング
    • Part 4: 整列および合成データエンジニアリング
    • Part 5: アプリケーションレベルのデータエンジニアリング
    • Part 6: キャップストーンプロジェクト (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

主な特徴

包括的な理論

  • Data-Centric AIの哲学を全体に反映
  • 事前学習 → ファインチューニング → RLHF → RAGへと続くLLMデータライフサイクル全体を扱う
  • スケーリング則、データ品質評価、マルチモーダル整列などの発展的なテーマを含む

モダンな技術スタック

  • 分散コンピューティング: Ray Data, Spark
  • データ保存: Parquet, WebDataset, Vector Databases
  • テキスト処理: Trafilatura, KenLM, MinHash LSH
  • マルチモーダル処理: CLIP, ColPali, img2dataset
  • データバージョン管理: DVC, LakeFS

豊富なキャップストーンプロジェクト

  • Mini-C4: Trafilatura + Ray + MinHashで高品質なテキストコーパスを構築
  • Legal Expert SFT: Self-Instruct + CoTベースのドメイン指示データセット
  • LLaVA Multimodal: Bbox整列および複数画像インターリービングで視覚指示データセットを生成
  • Math Textbook: Evol-Instruct + サンドボックス検証で推論データセットを構築
  • Financial Report RAG: ColPali + Qwen-VLでマルチモーダル質問応答システムを実装

ローカル開発

  • 必須環境: Python 3.8以上、MkDocs Material、mkdocs-static-i18n
  • インストールとプレビュー
    • git cloneでリポジトリを複製後、依存関係をインストール
    • mkdocs serveを実行するとローカルプレビューが可能(中国語・英語切り替え対応)
  • 静的サイトのビルド: mkdocs buildを実行するとsite/ディレクトリに結果を生成

プロジェクト構成

  • docs/フォルダに中国語(zh/)と英語(en/)のコンテンツを含む
  • images/stylesheets/javascripts/などのリソースディレクトリで構成
  • .github/workflows/にCI/CD設定を含む
  • mkdocs.ymlでサイト構成を管理
  • ライセンスはMIT License

対象読者

  • LLM研究・開発エンジニアデータエンジニアMLOpsエンジニア技術系AI PMLLMデータパイプライン研究者

ライセンス

  • MIT Licenseを適用

1件のコメント

 
GN⁺ 2026-02-16
Hacker Newsのコメント
  • この本を本当にありがたく読んでいる。翻訳の品質が非常に高い
    私はLLM学習に関しては完全な初心者だが、Apple SiliconでPythonコード生成のための新しいアーキテクチャを実験中だ
    ただ、データツールがコード中心ではなく一般的なテキストや画像に焦点を当てているので、もどかしさを感じている
    SGlangがMacOSで動かないため、EBNF制約付き出力を活用した合成データ生成ができていない
    Pythonコードコーパスを自分でダウンロードして、APFSの問題、シャーディング、カスタム分類・クレンジング・混合などを処理しているが、コード向けの事前タグ付け済みデータセットがないのは意外だ

  • LLM向けデータエンジニアリングという新たに台頭している分野を扱う本であれば、MLライフサイクル全体のためのストレージフォーマットのような新興カテゴリにも触れるべきだ
    たとえば Lance は、分析作業とベクトルワークロードの両方に最適化されたカラム型ストレージで、バージョン管理とランダムアクセスをサポートしている
    これはサンプリング、効率的なフィルタリング、マルチモーダルデータ(例: 動画)の処理に非常に重要だ
    類似の例としては vortex、Metaの nimble などがある

  • タイトルは『Data Engineering for LLMs』のほうが適切だと思う

    • いい指摘だ。内容的にも『Data Engineering for LLMs』のほうがずっと正確なので、プロジェクトリードにすぐ伝えるつもりだ
  • 翻訳の問題かもしれないが、序盤の「Modern Data Stack」の説明は信頼感を与えなかった
    1_2_data_infra.md の部分はやや曖昧だったが、
    その後の データクレンジングRAGパイプライン のセクションはずっと明確だった

    • 正直なフィードバックに感謝する
  • 英語版は README_en.md にある

    • ありがとう! 上部のリンクをそれに差し替えた。もともと投稿されたURLは data_engineering_book だった
      投稿がスパムフィルタに引っかかっていたが、作者がメールで知らせてくれたので、コメントで背景を共有するよう招待した。今はその内容を上部に反映してある
    • 直接リンクを共有してくれてありがとう
  • とても興味深いのでブックマークした。ところでREADMEはChatGPTで書かれたものなのだろうか

    • その通り。私たちは中国のチームで、英語翻訳にGPTを活用した。やや「作られた温かさ」のように感じられたというフィードバックに感謝する。今後はより中立的で簡潔なトーンに整える予定だ
    • 私もそう感じた。要約表が多く人工的な語り口だったので、LLMが書いたような印象が強かった。GPTでなくても全面的なリライトが必要だ
  • 「Data is the new oil, but only if you know how to refine it.」という文句が印象的だった
    石油 も精製されなければ役に立たないので、「データは新しい石油であり、精製してこそ価値が生まれる」くらいの表現のほうが自然に思える

  • 『Vector DB vs Keyword Search』のセクションが興味深かった。RAGパイプラインの実験で、境界線をどこに置いているのか気になる
    私たちの経験では、BM25のようなキーワード検索はエンティティ名・IDに強く、ベクトル検索は概念的なクエリに強かった。書籍でハイブリッド検索や再ランキングも扱っているのだろうか

    • いい質問だ。実際の本番環境では、BM25+ベクトルのハイブリッドアプローチがほとんどの場合で効果的だった。およそ70/30の比率でキーワードが厳密一致に有利だ
      核心は再ランキングだ。単純に結果を統合するのではなく、cross-encoder(例: Cohereやカスタムモデル)でスコアを付け直す必要がある
      純粋な意味ベース検索が有利になるのは、クエリが抽象的な概念中心のときだ
    • 洞察に感謝する。こうしたパターンは今後のアップデートで扱う予定だ。現在春節休暇中のため、少し遅れるかもしれない
  • 各章の図が英語になっている(README_en.mdの画像は例外)

    • 教えてくれてありがとう! その違いを認識して、README_en.mdの図をすぐ修正した。これで正しく表示されるはずだ
  • Parquetだけでは現代的なデータエンジニアリングには不十分だ。DeltaIcebergも含めるべきだ

    • フィードバックありがとう! 該当セクションの担当者に伝えた。現在春節休暇中なので、更新は少し遅れるかもしれない。良い新年を