LLM推論ハンドブック

(bentoml.com)

3 ポイント投稿者 GN⁺ 2025-07-12 | 1件のコメント | WhatsAppで共有

LLM推論ハンドブックは、実際のプロダクション環境におけるLLM推論に必要な中核概念と最適化手法を総合的に案内する
性能指標（例: Time to First Token、Tokens per Second）や運用のベストプラクティスなど、実務に不可欠な情報を提供する
継続的バッチ処理、プレフィックスキャッシュなど、最新の最適化手法を詳しく説明する
散在していたLLM推論の知識を一か所に整理し、開発者の理解と活用性を高める
ハンドブックは最新の現場情報と実証済みの方法論を継続的に反映して更新される

LLM推論ハンドブックの紹介

LLM Inference in Productionは、技術用語集、ガイドブック、そして参考書を一つに結合した形である
このハンドブックでは、LLM推論の基本概念、性能指標、最適化手法（継続的バッチ処理、プレフィックスキャッシュなど）、運用のベストプラクティスなど、実務で必ず知っておくべき内容を詳しく扱う

プロダクション環境におけるLLMのデプロイ、スケーリング、運用指針を実践的に案内する
非現実的な例外や不要な技術的ノイズを排除し、現場で重要な部分に集中する
各ユースケースに合った性能向上手法を紹介し、パフォーマンス改善に実質的に役立つ
業界の最新動向および実務で検証されたインサイトを継続的に更新する

執筆の動機

開発者はLLM推論に関する情報を見つけにくかったり、複数の場所に散在していたりするため、知識の断片化という問題に直面している
ハンドブックの執筆陣は、論文、ベンダーブログ、GitHub Issue、Discordでの会話などに散らばっている内容を総合し、

LLM学習と推論の違い
GoodputとSLO達成の相関関係
Prefill-Decode分離手法の実際の活用 などを一度に理解できるよう整理している

対象読者

このハンドブックは、プロダクション環境でLLMをデプロイ、スケーリング、運用するエンジニアのために作られている
小規模オープンモデルのファインチューニングから大規模な自前インフラ運用まで、

LLM推論をより速く、より安く、より信頼性高くしようとするすべての人を主な読者としている

活用方法

このハンドブックは最初から最後まで通読しても、参考書のように必要な部分だけを探して読むこともできる構成である
特定の導入順序や使い方はなく、

LLM推論分野の急速な変化に合わせて最新内容を継続的に追加・更新していく予定である

貢献案内

誤りの発見、改善提案、新しいトピックの追加を歓迎する

Issueの登録またはGitHubリポジトリへのPull Request提出を通じて、誰でも参加できる

1件のコメント

GN⁺ 2025-07-12

Hacker Newsの意見

こんにちは、私はこのプロジェクトのメンテナーの一人です。私たちのプロジェクトが Hacker News で紹介されてとてもうれしく、光栄に思います。このハンドブックを作った理由は、実際の LLM アプリケーションを開発する開発者が LLM 推論の概念に簡単に触れられるようにするためです。各所に散らばっていた知識を、明確で実用的かつ拡張性の高い形でまとめようとしました。今後もより良いハンドブックを目指して改善を続ける予定なので、フィードバックを積極的に受け付けています。GitHub リポジトリもぜひ参照してください
- こうして整理してくれて本当にありがとう。ひとつ質問があるのですが、この図で TTFT と ITL を定義している画像を見ると、モデルが T0 から T3 まで 4 個のトークンを生成した後に 1 つの出力トークンを返しているように見えます。私にはこの図は ITL を説明するのにより適しているように見え、TTFT の場合はデコード段階で T0 が 1 つ出た時点で直ちに detokenization に進み、最初の出力トークンが到着するべきだと思います（ストリーミング環境であれば、TTFT の測定でなければ意味がないため）
- issue を別途立てるつもりはありませんが、ハンドブックのセルフホスティング部分では llama.cpp のようなローカルなセルフホスティング推論オープンソースを明確に推奨してほしいです
- このハンドブックは有用でよく整理されていて良いと思いますが、細かいページに分割されすぎていて、モバイルでは目次がデフォルトで表示されないため読みづらいです。数ページ読んだところでやめてしまいました。少なくとも 1 セクションごとに 1 ページで見られるようにしてほしいです
- 本当に素晴らしい仕事で、きれいによく作られていて役に立ちます
デザインも本当に素晴らしくて気になったので聞きたいのですが、このウェブサイトで使われているデザインのトレンドや名称は何ですか。このサイトのデザインも本当に気に入りました
- Infima という基本 CSS フレームワークを使っているようです。これは Docusaurus のデフォルト CSS フレームワークで、システムフォントスタックをそのまま活用しています。font-family は -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif です
今後は Structured outputs/Guided generation およびサンプリングに関する内容もさらに追加されるとうれしいです。推論段階でのサンプリング関連アルゴリズムを紹介する追加の参考資料としては、こちらも参考になります
- わあ、このサンプリング整理資料も本当に詳しいですね
このようなハンドブックが出たことをとてもうれしく思います。公開された資料ではモデル学習への関心や高揚感が大きいのは理解できますが、実際にモデルをうまく運用することも非常に重要です。今後さまざまなアプリケーションに広く導入していくには、実行と運用に関する知識がますます必要になるでしょう
こうしてまとめて整理してくれてありがとう。今後はこの 1 つのリンクを共有するだけで、興味のある人が学べるようになりそうです。ひとつ提案すると、「OpenAI-compatible API」ページでは OpenAI パッケージなしの純粋な REST コール方式の例も追加してもらえるとうれしいです
BentoML について覚えているのは、もともと MLOps 関連だったような気がしていて、1 年前に使った記憶があります。会社がピボットしたのか気になります
- LLM サービングの分野が市場で大きな比重を占めているので、サービングフレームワークならこの領域へ拡張するのは自然な流れです
とても良い参考書です。ここまできれいに整理してくれてありがとう

LLM推論ハンドブック