- 大規模モデルの時代では、データ品質がモデル性能の上限を決定する
- そのための体系的なデータエンジニアリング知識を提供するオープンソースのガイドブック
- 事前学習データのクリーニング、マルチモーダル整列、RAGデータパイプライン、合成データ生成など全工程を網羅
- 5つのパートで13章を構成。さらに5つの実践型キャップストーンプロジェクトと実行可能なコード、アーキテクチャ設計を含み、実務学習を支援
- Ray、Spark、CLIP、DVCなどのモダンな技術スタックを活用してテキスト・画像・動画データを処理
- LLM研究者、データエンジニア、MLOps専門家など、AIデータパイプライン構築者にとって実践的な参考書として活用可能
紹介
- 大規模モデルの時代では、データ品質がモデル性能の限界を決定
- LLMデータエンジニアリングに関する体系的な資料が不足している現状を補うために制作
- 本書は事前学習データのクリーニングからマルチモーダル整列、RAG、合成データ生成まで、全体の技術スタックを扱う
- Common Crawlなどの大規模ノイズデータから高品質コーパスを抽出
- 画像-テキスト、動画、音声データの収集・クリーニング・整列
- SFT、RLHF、CoTデータの自動生成
- 企業向け文書のパースと意味単位分割を含むRAGパイプラインの構築
- 5つのエンドツーエンドのキャップストーンプロジェクトを通じて、実践中心の学習を提供
- オンラインで閲覧可能: https://datascale-ai.github.io/data_engineering_book/en/
本書の構成
- 全体構造は生データからアプリケーションまでの完全なデータエンジニアリングパイプライン
- 全6パート、13章、5つのプロジェクトで構成
- Part 1: インフラと中核概念
- Part 2: テキスト事前学習データエンジニアリング
- Part 3: マルチモーダルデータエンジニアリング
- Part 4: 整列および合成データエンジニアリング
- Part 5: アプリケーションレベルのデータエンジニアリング
- Part 6: キャップストーンプロジェクト (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
主な特徴
包括的な理論
- Data-Centric AIの哲学を全体に反映
- 事前学習 → ファインチューニング → RLHF → RAGへと続くLLMデータライフサイクル全体を扱う
- スケーリング則、データ品質評価、マルチモーダル整列などの発展的なテーマを含む
モダンな技術スタック
- 分散コンピューティング: Ray Data, Spark
- データ保存: Parquet, WebDataset, Vector Databases
- テキスト処理: Trafilatura, KenLM, MinHash LSH
- マルチモーダル処理: CLIP, ColPali, img2dataset
- データバージョン管理: DVC, LakeFS
豊富なキャップストーンプロジェクト
- Mini-C4: Trafilatura + Ray + MinHashで高品質なテキストコーパスを構築
- Legal Expert SFT: Self-Instruct + CoTベースのドメイン指示データセット
- LLaVA Multimodal: Bbox整列および複数画像インターリービングで視覚指示データセットを生成
- Math Textbook: Evol-Instruct + サンドボックス検証で推論データセットを構築
- Financial Report RAG: ColPali + Qwen-VLでマルチモーダル質問応答システムを実装
ローカル開発
- 必須環境: Python 3.8以上、MkDocs Material、mkdocs-static-i18n
- インストールとプレビュー
git cloneでリポジトリを複製後、依存関係をインストール
mkdocs serveを実行するとローカルプレビューが可能(中国語・英語切り替え対応)
- 静的サイトのビルド:
mkdocs buildを実行するとsite/ディレクトリに結果を生成
プロジェクト構成
docs/フォルダに中国語(zh/)と英語(en/)のコンテンツを含む
images/、stylesheets/、javascripts/などのリソースディレクトリで構成
.github/workflows/にCI/CD設定を含む
mkdocs.ymlでサイト構成を管理
- ライセンスはMIT License
対象読者
- LLM研究・開発エンジニア、データエンジニア、MLOpsエンジニア、技術系AI PM、LLMデータパイプライン研究者
ライセンス
1件のコメント
Hacker Newsのコメント
この本を本当にありがたく読んでいる。翻訳の品質が非常に高い
私はLLM学習に関しては完全な初心者だが、Apple SiliconでPythonコード生成のための新しいアーキテクチャを実験中だ
ただ、データツールがコード中心ではなく一般的なテキストや画像に焦点を当てているので、もどかしさを感じている
SGlangがMacOSで動かないため、EBNF制約付き出力を活用した合成データ生成ができていない
Pythonコードコーパスを自分でダウンロードして、APFSの問題、シャーディング、カスタム分類・クレンジング・混合などを処理しているが、コード向けの事前タグ付け済みデータセットがないのは意外だ
LLM向けデータエンジニアリングという新たに台頭している分野を扱う本であれば、MLライフサイクル全体のためのストレージフォーマットのような新興カテゴリにも触れるべきだ
たとえば Lance は、分析作業とベクトルワークロードの両方に最適化されたカラム型ストレージで、バージョン管理とランダムアクセスをサポートしている
これはサンプリング、効率的なフィルタリング、マルチモーダルデータ(例: 動画)の処理に非常に重要だ
類似の例としては vortex、Metaの nimble などがある
タイトルは『Data Engineering for LLMs』のほうが適切だと思う
翻訳の問題かもしれないが、序盤の「Modern Data Stack」の説明は信頼感を与えなかった
1_2_data_infra.md の部分はやや曖昧だったが、
その後の データクレンジング と RAGパイプライン のセクションはずっと明確だった
英語版は README_en.md にある
投稿がスパムフィルタに引っかかっていたが、作者がメールで知らせてくれたので、コメントで背景を共有するよう招待した。今はその内容を上部に反映してある
とても興味深いのでブックマークした。ところでREADMEはChatGPTで書かれたものなのだろうか
「Data is the new oil, but only if you know how to refine it.」という文句が印象的だった
石油 も精製されなければ役に立たないので、「データは新しい石油であり、精製してこそ価値が生まれる」くらいの表現のほうが自然に思える
『Vector DB vs Keyword Search』のセクションが興味深かった。RAGパイプラインの実験で、境界線をどこに置いているのか気になる
私たちの経験では、BM25のようなキーワード検索はエンティティ名・IDに強く、ベクトル検索は概念的なクエリに強かった。書籍でハイブリッド検索や再ランキングも扱っているのだろうか
核心は再ランキングだ。単純に結果を統合するのではなく、cross-encoder(例: Cohereやカスタムモデル)でスコアを付け直す必要がある
純粋な意味ベース検索が有利になるのは、クエリが抽象的な概念中心のときだ
各章の図が英語になっている(README_en.mdの画像は例外)
Parquetだけでは現代的なデータエンジニアリングには不十分だ。DeltaとIcebergも含めるべきだ