2025年 AIエンジニア読書リスト

(latent.space)

45 ポイント投稿者 GN⁺ 2025-01-14 | 3件のコメント | WhatsAppで共有

AIエンジニア向けに、50本の論文・モデル・ブログを10分野に分けて選定
LLM、ベンチマーク、プロンプティング、RAG、エージェント、コード生成、ビジョン、音声、拡散、ファインチューニング分野を含む

セクション1: 最前線のLLM

OpenAIモデル
- GPT1 (論文), GPT2 (論文), GPT3 (論文), Codex (論文), InstructGPT (論文), GPT4 (論文)
- GPT3.5 (ChatGPTの紹介), 4o (GPT-4oの紹介), o1 (o1プレビュー), o3 (システムカード)
AnthropicおよびGoogleのモデル
- Claude 3 (論文), Gemini 1 (論文)
- Claude 3.5 Sonnet (詳細), Gemini 2.0 Flash (公式ブログ), Flash Thinking (Gemini APIドキュメント), Gemma 2 (論文)
Meta関連のLLaMA系
- LLaMA 1 (論文), LLaMA 2 (論文), LLaMA 3 (論文)
- 派生モデル: Mistral 7B (論文), Mixtral (論文), Pixtral (論文)
DeepSeekモデル
- DeepSeek V1 (論文), Coder (論文), MoE (論文), V2 (論文), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (論文) - すべてのMacおよびiPhoneに搭載されたモデル
注目すべき追加モデルおよび研究
- LLMモデル
  - AI2系: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - その他: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws研究
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- 最先端モデル:
  - o1, o3, R1, QwQ, QVQ, f1
- Reasoningモデル研究:
  - Let’s Verify Step By Step, STaR, Noam Brownの講演

セクション 2: ベンチマークと評価

MMLU
- MMLU（論文）: 多分野知識ベンチマークの標準
  - 2025年の最先端研究では MMLU Pro（論文）、GPQA Diamond（論文）、BIG-Bench Hard（論文）を使用
- GPQA（論文）: 問題生成と正答評価に重点
- BIG-Bench（論文）: 多方面の問題を含む大規模ベンチマーク
MuSR（論文）: 長文コンテキスト内評価
- 関連研究: LongBench（論文）、BABILong（論文）、RULER（紹介）
- 問題設定: Lost in the Middle（論文）、Needle in a Haystack（GitHub）
MATH（論文）: 数学コンテスト問題集
- 最先端研究は FrontierMath（論文）および高難度問題に注目
- サブセット: MATH Level 5、AIME、AMC10/AMC12
IFEval（論文）: 主要な命令追従評価ベンチマーク
- Appleによる公式採用（リンク）
- 関連ベンチマーク: MT-Bench（論文）
ARC AGI（公式ページ）: 抽象的推論と "IQテスト" ベンチマーク
- 急速に飽和する他のベンチマークとは異なり、長期的に有効
追加参考資料
- Latent Space: Benchmarks 101、Benchmarks 201
- Carlini、LMArena、Braintrust: ベンチマークに関する詳細分析
- LLM関連資料: LLM-as-Judge、Applied LLMs
- データセットリソース: Datasets

セクション 3: プロンプティング、ICL、および思考の連鎖

GPT-3と In-Context Learning (ICL)
- GPT-3 論文（論文）: In-Context Learning (ICL) の概念を紹介
- ICLはプロンプティングと密接に関連しており、これによりLLMは文脈内で学習し適用可能
- Prompt Injection: プロンプト操作とセキュリティ問題（Lilian Wengのまとめ、Simon Willisonのシリーズ）
The Prompt Report: プロンプティング関連論文のサーベイ
- 概要: プロンプティング技法の全体的な発展と最新トレンドを要約（関連ポッドキャスト）
Chain-of-Thought (CoT):
- 段階的な思考プロセスのモデリング
- 関連研究:
  - Scratchpads（論文）
  - Let’s Think Step By Step（論文）
Tree of Thought:
- LookaheadとBacktrackingの概念を紹介
- 複雑な問題解決のための効果的な方法（関連ポッドキャスト）
Prompt Tuning:
- プロンプトなしでもモデル性能の調整が可能:
  - Prefix-Tuning（論文）
  - エントロピーベースのデコーディング調整（GitHub）
  - Representation Engineering（ブログ）
Automatic Prompt Engineering:
- LLMが直接プロンプトを生成し最適化する方法
- DSPyフレームワーク（論文）で実装
研究論文だけでなく実務的なガイドも有用:
- Lilian Weng の Prompt Engineeringブログ
- Eugene Yan の Promptingガイド
- Anthropicのチュートリアルとワークショップ:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

セクション 4: RAG（Retrieval-Augmented Generation）

Introduction to Information Retrieval: 情報検索の基礎を扱う古典的な参考書
- RAGは情報検索（IR）の問題であり、60年以上の歴史を持つ分野と密接に関連している
- 主な技術:
  - TF-IDF, BM25: テキストベースの検索
  - FAISS, HNSW: ベクトル検索および近傍探索
Meta RAG (2020年の論文): RAGという用語が初めて登場
- HyDE (ドキュメント)
- Chunking (研究)
- Rerankers (Cohereブログ)
- マルチモーダルデータ処理 (YouTube)
MTEB: 埋め込み評価ベンチマーク
- 論争と限界 (関連する議論)
- 埋め込みモデルの例:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (HuggingFaceブログ)
GraphRAG: MicrosoftのRAGと知識グラフの統合
- GraphRAG:
  - 知識グラフをRAGワークフローに統合し、個人データからより良い結果を提供
  - オープンソース化 (Microsoftブログ)
- 関連研究:
  - ColBERT, ColPali, ColQwen
RAGAS: OpenAIが推奨したシンプルなRAG評価手法
- Nvidia FACTS Framework (論文)
- Extrinsic Hallucinations in LLMs (Lilian Wengによる調査)
- Jason WeiのRecall vs Precision (ツイート)
学習資料とRAG実務
- LlamaIndex (ドキュメント, コース)
- LangChain (ドキュメント, チュートリアル動画)
- RAG vs Long Context Debate:
  - 論文: RAGと長いコンテキスト手法の比較

セクション 5: エージェント

SWE-Bench:
- エージェント評価の代表的なベンチマーク（コーディング中心）
- Anthropic、Devin、OpenAI などで採用され、高い注目を集めている
- 関連資料:
  - SWE-Agent（論文）
  - SWE-Bench Multimodal（論文）
  - Konwinski Prize（ウェブサイト）
- 比較対象: WebArena（GitHub）, SWE-Gym（関連ツイート）
ReAct:
- ツール使用と関数呼び出しに関する LLM 研究の出発点
- 関連研究:
  - Gorilla（リーダーボード）
  - Toolformer（論文）
  - HuggingGPT（論文）
MemGPT:
- 長期メモリのエミュレーションというアプローチ
- 主な活用例:
  - ChatGPT のメモリおよび制御機能
  - LangGraph のエピソード記憶
- 関連システム:
  - MetaGPT（論文）
  - AutoGen（論文）
  - Smallville（GitHub）
Voyager:
- Nvidia の認知アーキテクチャアプローチ:
  - カリキュラム、スキルライブラリ、サンドボックスを活用した性能向上
- 概念の拡張:
  - Agent Workflow Memory（論文）
Anthropic の Building Effective Agents:
- 2024年のエージェント設計の要点を整理
- 主なテーマ:
  - チェイニング、ルーティング、並列化、オーケストレーション、評価、最適化
- 関連資料:
  - Lilian Weng によるエージェント研究
  - Shunyu Yao によるLLMエージェント研究
  - Chip Huyen による2025年のエージェント概観
追加の学習資料と講義
- 2024年最新のエージェントデザイン: NeurIPS まとめ
- UC Berkeley MOOC: LLM Agents 講義
- エージェントの定義に関する議論: 必要に応じてこの定義を参照

セクション 6: コード生成(CodeGen)

The Stack paper
- The Pile のコード中心オープンデータセットの対となるものとして始まった
- 後続の取り組み:
  - The Stack v2: 改良されたデータセット
  - StarCoder: 最適化されたコード生成モデル
オープンコードモデルの論文
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- 多くの人が Claude 3.5 Sonnet を最高のコードモデルと評価しているが、公式論文はない
HumanEval/Codex
- コーディング分野の必須ベンチマーク（現在は飽和状態）
- 現代的な代替ベンチマーク:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - エージェント中心の評価として有名だが、コストが高く、モデルそのものよりエージェント評価に重点がある
AlphaCodeium
- Google の AlphaCode および AlphaCode2 の性能をベースにしている
- Flow Engineering を活用して既存モデルの性能を大幅に向上
CriticGPT
- コード生成時に発生するセキュリティ問題の検出に焦点
  - OpenAI の CriticGPT はセキュリティ問題を識別するよう学習されている
  - Anthropic は SAEs（Safety-relevant Activation Ensembles）を用いて、問題を引き起こす LLM の特徴を分析している（研究）
産業におけるコード生成は、研究から実務へと重心が移っている:
- Devin のようなコードエージェントの活用（動画）
- コード生成に関する実務的な助言（YouTube）

セクション 7: ビジョン

Non-LLMベースのビジョン研究
- YOLO:
  - リアルタイム物体検出モデルとして有名
  - 現在は v11 まで発展（GitHub）
  - 最近の研究: DETR ベースのトランスフォーマーモデルが、YOLOを上回る性能を示している
- 参考: YOLOのさまざまなバージョンと発展系譜に注意（関連議論）
CLIP:
- ViTベースのマルチモーダルモデルの成功事例
- 最新モデル:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIPは今なお重要な背景知識
MMVP benchmark:
- CLIPの限界を評価
- マルチモーダル版: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- 画像および動画セグメンテーションの代表的モデル
- 後続研究: SAM 2 （関連ポッドキャスト）
- 補完モデル: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA （ポッドキャスト）
- Early Fusion:
  - Metaの Flamingo
  - Chameleon
  - Appleの AIMv2
  - Rekaの Core
- 参考資料: マルチモーダルビジョン研究の流れ
出版されていない最新の取り組み:
- GPT4V System Card および派生研究（論文）
- OpenAI 4o:
  - 4o Visionファインチューニング
- 最新モデル:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - その他のモデル:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

セクション 8: 音声

Whisper:
- OpenAIの成功した ASR モデル
- 主なバージョン:
  - Whisper v2 （関連議論）
  - Whisper v3 （関連議論）
  - Distil-Whisper （GitHub）
  - Whisper v3 Turbo （分析）
- Whisperは複数の公開ウェイトモデルを提供しているが、一部のバージョンには論文がない
AudioPaLM:
- GoogleのAudioPaLMは、PaLMからGeminiへ移行する前の研究
- 参考: Metaの Llama 3 音声探究（論文）
NaturalSpeech:
- 主要な TTS 研究の1つ
- 最近 v3 （論文）に更新
Kyutai Moshi:
- フルデュプレックス音声-テキストのオープンウェイトモデル
- 高品質なデモ（YouTube）
- 参考モデル: Hume OCTAVE （ブログ）
OpenAI Realtime API: The Missing Manual:
- OpenAIのリアルタイム音声APIに関する非公式ドキュメント
- 最新のエージェントおよびリアルタイム処理に重要なツール
大手研究所以外の多様なソリューションの推奨:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- 参考: State of Voice AI 2024
- NotebookLM音声モデル:
  - モデルは公開されていないが、モデリングプロセスに関する詳細な説明 が提供されている
Gemini 2.0: 音声とビジョンを自然に統合したマルチモーダルモデル
- 2025年以降: 音声とビジョンのモダリティ融合が明確な道筋として進化中

セクション 9: 画像/動画拡散

Latent Diffusion:
- Stable Diffusionの中核論文
- 拡張版:
  - SD2（公式発表）
  - SDXL および SD3
- 現在、チームは BFL Flux を開発中
OpenAI DALL-Eシリーズ:
- DALL-E、DALL-E-2、DALL-E-3
Google Imagenシリーズ:
- Imagen、Imagen 2、Imagen 3
- 参考: Ideogram
Consistency Models:
- 拡散モデルの蒸留作業
- 拡張:
  - LCMs
  - 最新アップデート: sCMs
Sora:
- OpenAIのテキスト-to-ビデオ変換ツール（公式論文なし）
- 参考:
  - DiT論文（同じ著者）
  - OpenSora: オープンウェイトベースの競合モデル
  - Lilian Wengのまとめ
ComfyUI:
- ビジョンモデルのユーザーインターフェースとして注目を集める（関連インタビュー）
専門分野:
- Text Diffusion: テキストベースの拡散モデル
- Music Diffusion: 音楽生成拡散
- Autoregressive Image Generation: 自己回帰型画像生成
Open Weights競争:
- Text-to-Video Arena
最新動向の理解:
- Stable DiffusionおよびDALL-Eモデルの活用
- テキストと動画モダリティの融合研究

セクション 10: モデルのファインチューニング（Finetuning）

LoRA/QLoRA:
- 低コストなモデルファインチューニングの標準
- 主な応用:
  - ローカルモデルおよびOpenAIの 4o でもサポート（ポッドキャストを参照）
  - FSDP+QLoRA: 教材
DPO:
- OpenAIの Preference Finetuning でサポート
- PPO（論文）の代替として人気だが、性能はやや低い
ReFT:
- 既存のいくつかのレイヤーをファインチューニングする代わりに、モデルの特徴（feature）に注目
- 効率的なファインチューニング手法
Orca 3/AgentInstruct:
- 合成データ生成に適した手法
- 関連研究:
  - NeurIPSの Synthetic Data Picks
RLチューニング:
- OpenAIの RL Finetuning for o1 は議論の余地があるが重要な資料
- 関連研究:
  - Let’s Verify Step By Step
  - Noam Brown の講演
Unslothノートブック:
- GitHub に実践中心のノートブックを提供
HuggingFaceガイド:
- How to fine-tune open LLMs: ファインチューニングの全工程に関する詳細ガイド

AIエンジニアのための2025年読書リストの締めくくり

このリストは膨大で圧倒的に感じられるかもしれないが、途中で諦めても大丈夫。重要なのは再開すること
最新情報を維持するため、2025年中も継続的に更新予定
自分なりの学習方法を作ってもよいが、1時間で論文を読む方法を参考にすると役立つ
読書と学習のヒントはこちらで確認可能
コミュニティと一緒に学ぶ
- DiscordおよびTelegramグループ:
  - Krispin のDiscordグループ: https://app.discuna.com/invite/ai_engineer
  - NYCで活動中の Fed of Flow AI のTelegramグループ: AI NYC Telegram
  - Latent Space Discordコミュニティに参加: Discord招待リンク
- ノートとハイライトの共有:
  - 読者 Niels が始めたブログ: 2025 AI Engineer Reading List ノート

3件のコメント

kipsong133 2025-01-16

こうして見ると、本当にじっくり読む価値のある資料がまだまだたくさんありますね

GN⁺ 2025-01-14

Hacker Newsのコメント

ほとんどの論文は、深い理解よりも知識の習得に重点を置いている。主題に不慣れなら、論文より教科書から始めるのがよい。最近の Bishop の "Deep Learning: Foundations and Concepts (2024)" と Chip Huyen の "AI Engineering (2024)" は良い資料だ。"Dive into Deep Learning" や fast.ai の資料も勧められる
"AI Engineer" という職業が何を指すのか分からないが、研究論文を読むことが本当に必要なのか疑問だ。AI の最先端を扱わないのであれば、論文を読むことには意味がないかもしれない。LLM の応答を理解し、ユーザーフレンドリーなアプリを構築することのほうが重要だ。OpenAI や Groq の API を使う際に、"multi head attention" と "single head attention" の違いを知っていても、あまり役には立たない
リストを作るのは難しい作業だ。選ばれたもの以外にも適切な候補が多いので、これはカリキュラムとして捉え、現在関連する論文は固定された参照ではなく動くポインタとして理解すべきだ。特定の読書リストを論文クラブで扱っている
ほとんどのオープンソースモデルの指示ファインチューニング手法は Alpaca に由来している。Alpaca と合成データ生成に関する論文も含めるべきだ
AI や LLM の論文を読んで理解することに時間を無駄にするより、ELIZA について読み、自分で作ってみるほうがよい。テンソル、ベクトル、フィールド、言語学、コンピュータアーキテクチャ、ネットワークに集中すべきだ
この読書リストは約1年前のものだ。2025年には KTO、RLOO、DPO のような技術に集中すべきだ。2025年には蒸留と最適化だけに集中すべきだ。CoT は新しいものではなく、修正された CoT が核心だ
"AI" という用語が、最近の DL の発展によってほぼ完全に吸収されてしまったのは興味深い。Russell & Norvig、Minsky、Shannon、Lenat などへの言及がない。AI というより広いテーマへの導入に関心があるなら、たいていの大学院課程で同じ本が使われている
素晴らしい調査だ。以下のコースと組み合わせれば最高の結果が得られる
素晴らしいリストだ

francomoon7 2025-01-16

Elizaを自分で構築してみるとは、どういう意味ですか？

2025年 AIエンジニア読書リスト

セクション1: 最前線のLLM

セクション 2: ベンチマークと評価

セクション 3: プロンプティング、ICL、および思考の連鎖

セクション 4: RAG（Retrieval-Augmented Generation）

セクション 5: エージェント

セクション 6: コード生成(CodeGen)

セクション 7: ビジョン

セクション 8: 音声

セクション 9: 画像/動画拡散

セクション 10: モデルのファインチューニング（Finetuning）

AIエンジニアのための2025年読書リストの締めくくり

関連記事

3件のコメント

Hacker Newsのコメント