45 ポイント 投稿者 GN⁺ 2025-01-14 | 3件のコメント | WhatsAppで共有
  • AIエンジニア向けに、50本の論文・モデル・ブログを10分野に分けて選定
  • LLM、ベンチマーク、プロンプティング、RAG、エージェント、コード生成、ビジョン、音声、拡散、ファインチューニング分野を含む

セクション1: 最前線のLLM

セクション 2: ベンチマークと評価

  • MMLU
    • MMLU論文): 多分野知識ベンチマークの標準
      • 2025年の最先端研究では MMLU Pro論文)、GPQA Diamond論文)、BIG-Bench Hard論文)を使用
    • GPQA論文): 問題生成と正答評価に重点
    • BIG-Bench論文): 多方面の問題を含む大規模ベンチマーク
  • MuSR論文): 長文コンテキスト内評価
    • 関連研究: LongBench論文)、BABILong論文)、RULER紹介
    • 問題設定: Lost in the Middle論文)、Needle in a HaystackGitHub
  • MATH論文): 数学コンテスト問題集
    • 最先端研究は FrontierMath論文)および高難度問題に注目
    • サブセット: MATH Level 5AIMEAMC10/AMC12
  • IFEval論文): 主要な命令追従評価ベンチマーク
    • Appleによる公式採用(リンク
    • 関連ベンチマーク: MT-Bench論文
  • ARC AGI公式ページ): 抽象的推論と "IQテスト" ベンチマーク
    • 急速に飽和する他のベンチマークとは異なり、長期的に有効
  • 追加参考資料

セクション 3: プロンプティング、ICL、および思考の連鎖

セクション 4: RAG(Retrieval-Augmented Generation)

セクション 5: エージェント

セクション 6: コード生成(CodeGen)

  • The Stack paper
    • The Pile のコード中心オープンデータセットの対となるものとして始まった
    • 後続の取り組み:
  • オープンコードモデルの論文
  • HumanEval/Codex
    • コーディング分野の必須ベンチマーク(現在は飽和状態)
    • 現代的な代替ベンチマーク:
    • SWE-Bench
      • エージェント中心の評価として有名だが、コストが高く、モデルそのものよりエージェント評価に重点がある
  • AlphaCodeium
    • Google の AlphaCode および AlphaCode2 の性能をベースにしている
    • Flow Engineering を活用して既存モデルの性能を大幅に向上
  • CriticGPT
    • コード生成時に発生するセキュリティ問題の検出に焦点
      • OpenAI の CriticGPT はセキュリティ問題を識別するよう学習されている
      • Anthropic は SAEs(Safety-relevant Activation Ensembles)を用いて、問題を引き起こす LLM の特徴を分析している(研究
  • 産業におけるコード生成は、研究から実務へと重心が移っている:
    • Devin のようなコードエージェントの活用(動画
    • コード生成に関する実務的な助言(YouTube

セクション 7: ビジョン

セクション 8: 音声

  • Whisper:
    • OpenAIの成功した ASR モデル
    • 主なバージョン:
    • Whisperは複数の公開ウェイトモデルを提供しているが、一部のバージョンには論文がない
  • AudioPaLM:
    • GoogleのAudioPaLMは、PaLMからGeminiへ移行する前の研究
    • 参考: Metaの Llama 3 音声探究(論文
  • NaturalSpeech:
    • 主要な TTS 研究の1つ
    • 最近 v3論文)に更新
  • Kyutai Moshi:
    • フルデュプレックス音声-テキストのオープンウェイトモデル
    • 高品質なデモ(YouTube
    • 参考モデル: Hume OCTAVEブログ
  • OpenAI Realtime API: The Missing Manual:
    • OpenAIのリアルタイム音声APIに関する非公式ドキュメント
    • 最新のエージェントおよびリアルタイム処理に重要なツール
  • 大手研究所以外の多様なソリューションの推奨:
  • Gemini 2.0: 音声とビジョンを自然に統合したマルチモーダルモデル
    • 2025年以降: 音声とビジョンのモダリティ融合が明確な道筋として進化中

セクション 9: 画像/動画拡散

セクション 10: モデルのファインチューニング(Finetuning)

AIエンジニアのための2025年読書リストの締めくくり

  • このリストは膨大で圧倒的に感じられるかもしれないが、途中で諦めても大丈夫。重要なのは再開すること
  • 最新情報を維持するため、2025年中も継続的に更新予定
  • 自分なりの学習方法を作ってもよいが、1時間で論文を読む方法 を参考にすると役立つ
  • 読書と学習のヒントは こちら で確認可能
  • コミュニティと一緒に学ぶ

3件のコメント

 
kipsong133 2025-01-16

こうして見ると、本当にじっくり読む価値のある資料がまだまだたくさんありますね

 
GN⁺ 2025-01-14
Hacker Newsのコメント
  • ほとんどの論文は、深い理解よりも知識の習得に重点を置いている。主題に不慣れなら、論文より教科書から始めるのがよい。最近の Bishop の "Deep Learning: Foundations and Concepts (2024)" と Chip Huyen の "AI Engineering (2024)" は良い資料だ。"Dive into Deep Learning" や fast.ai の資料も勧められる

  • "AI Engineer" という職業が何を指すのか分からないが、研究論文を読むことが本当に必要なのか疑問だ。AI の最先端を扱わないのであれば、論文を読むことには意味がないかもしれない。LLM の応答を理解し、ユーザーフレンドリーなアプリを構築することのほうが重要だ。OpenAI や Groq の API を使う際に、"multi head attention" と "single head attention" の違いを知っていても、あまり役には立たない

  • リストを作るのは難しい作業だ。選ばれたもの以外にも適切な候補が多いので、これはカリキュラムとして捉え、現在関連する論文は固定された参照ではなく動くポインタとして理解すべきだ。特定の読書リストを論文クラブで扱っている

  • ほとんどのオープンソースモデルの指示ファインチューニング手法は Alpaca に由来している。Alpaca と合成データ生成に関する論文も含めるべきだ

  • AI や LLM の論文を読んで理解することに時間を無駄にするより、ELIZA について読み、自分で作ってみるほうがよい。テンソル、ベクトル、フィールド、言語学、コンピュータアーキテクチャ、ネットワークに集中すべきだ

  • この読書リストは約1年前のものだ。2025年には KTO、RLOO、DPO のような技術に集中すべきだ。2025年には蒸留と最適化だけに集中すべきだ。CoT は新しいものではなく、修正された CoT が核心だ

  • "AI" という用語が、最近の DL の発展によってほぼ完全に吸収されてしまったのは興味深い。Russell & Norvig、Minsky、Shannon、Lenat などへの言及がない。AI というより広いテーマへの導入に関心があるなら、たいていの大学院課程で同じ本が使われている

  • 素晴らしい調査だ。以下のコースと組み合わせれば最高の結果が得られる

  • 素晴らしいリストだ

 
francomoon7 2025-01-16

Elizaを自分で構築してみるとは、どういう意味ですか?