- AIエンジニア向けに、50本の論文・モデル・ブログを10分野に分けて選定
- LLM、ベンチマーク、プロンプティング、RAG、エージェント、コード生成、ビジョン、音声、拡散、ファインチューニング分野を含む
セクション1: 最前線のLLM
- OpenAIモデル
- AnthropicおよびGoogleのモデル
- Meta関連のLLaMA系
- LLaMA 1 (論文), LLaMA 2 (論文), LLaMA 3 (論文)
- 派生モデル: Mistral 7B (論文), Mixtral (論文), Pixtral (論文)
- DeepSeekモデル
- Apple Intelligence
- Apple Intelligence (論文) - すべてのMacおよびiPhoneに搭載されたモデル
- 注目すべき追加モデルおよび研究
- LLMモデル
- AI2系: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- その他: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Scaling Laws研究
- 最先端モデル:
- Reasoningモデル研究:
セクション 2: ベンチマークと評価
- MMLU
- MMLU(論文): 多分野知識ベンチマークの標準
- 2025年の最先端研究では MMLU Pro(論文)、GPQA Diamond(論文)、BIG-Bench Hard(論文)を使用
- GPQA(論文): 問題生成と正答評価に重点
- BIG-Bench(論文): 多方面の問題を含む大規模ベンチマーク
- MuSR(論文): 長文コンテキスト内評価
- 関連研究: LongBench(論文)、BABILong(論文)、RULER(紹介)
- 問題設定: Lost in the Middle(論文)、Needle in a Haystack(GitHub)
- MATH(論文): 数学コンテスト問題集
- IFEval(論文): 主要な命令追従評価ベンチマーク
- Appleによる公式採用(リンク)
- 関連ベンチマーク: MT-Bench(論文)
- ARC AGI(公式ページ): 抽象的推論と "IQテスト" ベンチマーク
- 急速に飽和する他のベンチマークとは異なり、長期的に有効
- 追加参考資料
セクション 3: プロンプティング、ICL、および思考の連鎖
セクション 4: RAG(Retrieval-Augmented Generation)
セクション 5: エージェント
- SWE-Bench:
- エージェント評価の代表的なベンチマーク(コーディング中心)
- Anthropic、Devin、OpenAI などで採用され、高い注目を集めている
- 関連資料:
- SWE-Agent(論文)
- SWE-Bench Multimodal(論文)
- Konwinski Prize(ウェブサイト)
- 比較対象: WebArena(GitHub), SWE-Gym(関連ツイート)
- ReAct:
- ツール使用と関数呼び出しに関する LLM 研究の出発点
- 関連研究:
- MemGPT:
- 長期メモリのエミュレーションというアプローチ
- 主な活用例:
- 関連システム:
- Voyager:
- Nvidia の認知アーキテクチャアプローチ:
- カリキュラム、スキルライブラリ、サンドボックスを活用した性能向上
- 概念の拡張:
- Agent Workflow Memory(論文)
- Anthropic の Building Effective Agents:
- 2024年のエージェント設計の要点を整理
- 主なテーマ:
- チェイニング、ルーティング、並列化、オーケストレーション、評価、最適化
- 関連資料:
- 追加の学習資料と講義
セクション 6: コード生成(CodeGen)
- The Stack paper
- The Pile のコード中心オープンデータセットの対となるものとして始まった
- 後続の取り組み:
- オープンコードモデルの論文
- HumanEval/Codex
- コーディング分野の必須ベンチマーク(現在は飽和状態)
- 現代的な代替ベンチマーク:
- SWE-Bench
- エージェント中心の評価として有名だが、コストが高く、モデルそのものよりエージェント評価に重点がある
- AlphaCodeium
- Google の AlphaCode および AlphaCode2 の性能をベースにしている
- Flow Engineering を活用して既存モデルの性能を大幅に向上
- CriticGPT
- コード生成時に発生するセキュリティ問題の検出に焦点
- OpenAI の CriticGPT はセキュリティ問題を識別するよう学習されている
- Anthropic は SAEs(Safety-relevant Activation Ensembles)を用いて、問題を引き起こす LLM の特徴を分析している(研究)
- 産業におけるコード生成は、研究から実務へと重心が移っている:
- Devin のようなコードエージェントの活用(動画)
- コード生成に関する実務的な助言(YouTube)
セクション 7: ビジョン
セクション 8: 音声
- Whisper:
- OpenAIの成功した ASR モデル
- 主なバージョン:
- Whisper v2 (関連議論)
- Whisper v3 (関連議論)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (分析)
- Whisperは複数の公開ウェイトモデルを提供しているが、一部のバージョンには論文がない
- AudioPaLM:
- GoogleのAudioPaLMは、PaLMからGeminiへ移行する前の研究
- 参考: Metaの Llama 3 音声探究(論文)
- NaturalSpeech:
- 主要な TTS 研究の1つ
- 最近 v3 (論文)に更新
- Kyutai Moshi:
- フルデュプレックス音声-テキストのオープンウェイトモデル
- 高品質なデモ(YouTube)
- 参考モデル: Hume OCTAVE (ブログ)
- OpenAI Realtime API: The Missing Manual:
- OpenAIのリアルタイム音声APIに関する非公式ドキュメント
- 最新のエージェントおよびリアルタイム処理に重要なツール
- 大手研究所以外の多様なソリューションの推奨:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- 参考: State of Voice AI 2024
- NotebookLM音声モデル:
- Gemini 2.0: 音声とビジョンを自然に統合したマルチモーダルモデル
- 2025年以降: 音声とビジョンのモダリティ融合が明確な道筋として進化中
セクション 9: 画像/動画拡散
- Latent Diffusion:
- Stable Diffusionの中核論文
- 拡張版:
- 現在、チームは BFL Flux を開発中
- OpenAI DALL-Eシリーズ:
- Google Imagenシリーズ:
- Consistency Models:
- Sora:
- OpenAIのテキスト-to-ビデオ変換ツール(公式論文なし)
- 参考:
- ComfyUI:
- 専門分野:
- Open Weights競争:
- 最新動向の理解:
- Stable DiffusionおよびDALL-Eモデルの活用
- テキストと動画モダリティの融合研究
セクション 10: モデルのファインチューニング(Finetuning)
AIエンジニアのための2025年読書リストの締めくくり
- このリストは膨大で圧倒的に感じられるかもしれないが、途中で諦めても大丈夫。重要なのは再開すること
- 最新情報を維持するため、2025年中も継続的に更新予定
- 自分なりの学習方法を作ってもよいが、1時間で論文を読む方法 を参考にすると役立つ
- 読書と学習のヒントは こちら で確認可能
- コミュニティと一緒に学ぶ
- DiscordおよびTelegramグループ:
- ノートとハイライトの共有:
3件のコメント
こうして見ると、本当にじっくり読む価値のある資料がまだまだたくさんありますね
Hacker Newsのコメント
ほとんどの論文は、深い理解よりも知識の習得に重点を置いている。主題に不慣れなら、論文より教科書から始めるのがよい。最近の Bishop の "Deep Learning: Foundations and Concepts (2024)" と Chip Huyen の "AI Engineering (2024)" は良い資料だ。"Dive into Deep Learning" や fast.ai の資料も勧められる
"AI Engineer" という職業が何を指すのか分からないが、研究論文を読むことが本当に必要なのか疑問だ。AI の最先端を扱わないのであれば、論文を読むことには意味がないかもしれない。LLM の応答を理解し、ユーザーフレンドリーなアプリを構築することのほうが重要だ。OpenAI や Groq の API を使う際に、"multi head attention" と "single head attention" の違いを知っていても、あまり役には立たない
リストを作るのは難しい作業だ。選ばれたもの以外にも適切な候補が多いので、これはカリキュラムとして捉え、現在関連する論文は固定された参照ではなく動くポインタとして理解すべきだ。特定の読書リストを論文クラブで扱っている
ほとんどのオープンソースモデルの指示ファインチューニング手法は Alpaca に由来している。Alpaca と合成データ生成に関する論文も含めるべきだ
AI や LLM の論文を読んで理解することに時間を無駄にするより、ELIZA について読み、自分で作ってみるほうがよい。テンソル、ベクトル、フィールド、言語学、コンピュータアーキテクチャ、ネットワークに集中すべきだ
この読書リストは約1年前のものだ。2025年には KTO、RLOO、DPO のような技術に集中すべきだ。2025年には蒸留と最適化だけに集中すべきだ。CoT は新しいものではなく、修正された CoT が核心だ
"AI" という用語が、最近の DL の発展によってほぼ完全に吸収されてしまったのは興味深い。Russell & Norvig、Minsky、Shannon、Lenat などへの言及がない。AI というより広いテーマへの導入に関心があるなら、たいていの大学院課程で同じ本が使われている
素晴らしい調査だ。以下のコースと組み合わせれば最高の結果が得られる
素晴らしいリストだ
Elizaを自分で構築してみるとは、どういう意味ですか?