NVIDIA GPUでGPT-OSS-120Bを毎秒500トークン以上で実行する方法
(baseten.co)- OpenAIのオープンソースLLMであるGPT-OSS-120Bを、NVIDIA GPU環境で毎秒500トークン以上の処理性能になるよう最適化した
- TensorRT-LLM、vLLM、SGLangなど複数の推論フレームワークを並行してテストし、HopperとBlackwellアーキテクチャの両方をサポート
- 互換性バグを修正し、Harmonyなどの新規レスポンス形式統合、KVキャッシュ認識ルーティング、Eagleベースの推測(Speculative)デコーディングなど最適化を適用
- テンソル並列化とエキスパート並列化を比較した結果、低レイテンシを実現するためにテンソル並列化を採用し、BlackwellではTensorRT-LLM MoEバックエンドを使用
- 今後の性能向上には、小型ドラフトモデルを用いる推測(Speculative)デコーディングを含む追加最適化を計画
概要
- OpenAIの最新オープンソース大規模言語モデルであるGPT-OSS-120Bが公開されると同時に、Basetenは最高性能実装へ挑戦
- BasetenはOpenAIの公式ローンチパートナー
- OpenRouterで公開された実ユーザーデータを通じて、NVIDIA GPUベース環境で他社製品を上回る性能を実証
- Flexible Inference Stackとモデルエンジニアリングチームの専門性により、時間単位で最適化パッチを迅速に適用
- ブログ記事執筆のわずか数時間の間でも毎秒100トークンを追加改善し、100%の稼働率を維持
パフォーマンス最適化の取り組み
- TensorRT-LLM、vLLM、SGLangなどの推論フレームワークでテストおよびベンチマークを実施
- Hopper、Blackwell GPUアーキテクチャとの互換性確保を並行
- BasetenのFlexible Inference StackやNVIDIA Dynamoなど主要コンポーネントを統合
- KVキャッシュ認識ルーティングと**Speculative decoding(Eagleベース)**など、継続して実績のある性能最適化手法を適用
以下は、SOTA性能とフルコンテキストウィンドウサポートを同時に実現するための主要ステップ
Step 1: 初回推論の実行
- どの方式であっても**初回推論(ベースライン推論)**を速やかに実行することが出発点
- GPU環境を踏まえ、複数のエンジニアが同時にvLLM、SGLang、TensorRT-LLMの実験を並行して実施
- 最も優れた性能を示したTensorRT-LLMをいち早く起動することに成功
- Hopper(最も多くH100 GPUがある)とBlackwell(B200 GPUで速度が高い)両方でTensorRT-LLMのサポートを確保
- Baseten Inference Runtimeの柔軟性により、新アーキテクチャモデルへの対応やスタック内ツールの迅速な置き換えが容易だった
Step 2: 互換性バグの修正
- 新しいモデルアーキテクチャの登場には、フレームワーク統合時の頻繁なバグが付きもの
- GPT OSSには、Harmonyのような新しいレスポンス形式が追加され、既存フレームワークとの統合時にバグが発生
- 速度と精度を同時に確保するため反復的に修正・テストを実施し、有効な修正はオープンソースへ貢献
- グローバルなオープンソースコミュニティの協業により、さまざまな最適化経路やバグ修正が迅速に行われている
Step 3: モデル構成の最適化
- OpenAIはGPT OSS 120Bが単一H100でも動作することを明記しているが、実際には4〜8GPUの並列化が性能面で有利
- Tensor Parallelismはレイテンシ(遅延)に、Expert Parallelismはシステムスループット(throughput)に強み
- Basetenは低レイテンシ最適化を目的にTensor Parallelismを選択
- BlackwellではTensorRT-LLM MoE Backendを適用し、以前のTritonバックエンドよりCUDAカーネル性能が向上
- HopperおよびBlackwell環境それぞれに最適化された設定を公開し、Model APIではBlackwellベースの設定を採用
追加のパフォーマンス最適化
- 第1次最適化のみでSOTAレベルのスループットとレイテンシを実現したが、改善の余地は十分ある
- 次の主要アップデートはSpeculative Decodingの導入予定
- この方式では、より高速な小型「ドラフト」モデルが予測トークンを生成し、本モデルが検証
- BasetenはEagle 3を推奨するが、推論スタック内で10個以上のアルゴリズムを状況に応じて柔軟に運用
- Speculative decodingは一度に複数トークンの推論を進め、効率的な速度向上を可能にする
まだコメントはありません。