NVIDIA GPUでGPT-OSS-120Bを毎秒500トークン以上で実行する方法

(baseten.co)

7 ポイント投稿者 GN⁺ 2025-08-12 | まだコメントはありません。 | WhatsAppで共有

OpenAIのオープンソースLLMであるGPT-OSS-120Bを、NVIDIA GPU環境で毎秒500トークン以上の処理性能になるよう最適化した
TensorRT-LLM、vLLM、SGLangなど複数の推論フレームワークを並行してテストし、HopperとBlackwellアーキテクチャの両方をサポート
互換性バグを修正し、Harmonyなどの新規レスポンス形式統合、KVキャッシュ認識ルーティング、Eagleベースの推測（Speculative）デコーディングなど最適化を適用
テンソル並列化とエキスパート並列化を比較した結果、低レイテンシを実現するためにテンソル並列化を採用し、BlackwellではTensorRT-LLM MoEバックエンドを使用
今後の性能向上には、小型ドラフトモデルを用いる推測（Speculative）デコーディングを含む追加最適化を計画

概要

OpenAIの最新オープンソース大規模言語モデルであるGPT-OSS-120Bが公開されると同時に、Basetenは最高性能実装へ挑戦
- BasetenはOpenAIの公式ローンチパートナー
OpenRouterで公開された実ユーザーデータを通じて、NVIDIA GPUベース環境で他社製品を上回る性能を実証
Flexible Inference Stackとモデルエンジニアリングチームの専門性により、時間単位で最適化パッチを迅速に適用
ブログ記事執筆のわずか数時間の間でも毎秒100トークンを追加改善し、100%の稼働率を維持

パフォーマンス最適化の取り組み

TensorRT-LLM、vLLM、SGLangなどの推論フレームワークでテストおよびベンチマークを実施
Hopper、Blackwell GPUアーキテクチャとの互換性確保を並行
BasetenのFlexible Inference StackやNVIDIA Dynamoなど主要コンポーネントを統合
KVキャッシュ認識ルーティングと**Speculative decoding（Eagleベース）**など、継続して実績のある性能最適化手法を適用

以下は、SOTA性能とフルコンテキストウィンドウサポートを同時に実現するための主要ステップ

Step 1: 初回推論の実行

どの方式であっても**初回推論（ベースライン推論）**を速やかに実行することが出発点
GPU環境を踏まえ、複数のエンジニアが同時にvLLM、SGLang、TensorRT-LLMの実験を並行して実施
最も優れた性能を示したTensorRT-LLMをいち早く起動することに成功
Hopper（最も多くH100 GPUがある）とBlackwell（B200 GPUで速度が高い）両方でTensorRT-LLMのサポートを確保
Baseten Inference Runtimeの柔軟性により、新アーキテクチャモデルへの対応やスタック内ツールの迅速な置き換えが容易だった

Step 2: 互換性バグの修正

新しいモデルアーキテクチャの登場には、フレームワーク統合時の頻繁なバグが付きもの
GPT OSSには、Harmonyのような新しいレスポンス形式が追加され、既存フレームワークとの統合時にバグが発生
速度と精度を同時に確保するため反復的に修正・テストを実施し、有効な修正はオープンソースへ貢献
グローバルなオープンソースコミュニティの協業により、さまざまな最適化経路やバグ修正が迅速に行われている

Step 3: モデル構成の最適化

OpenAIはGPT OSS 120Bが単一H100でも動作することを明記しているが、実際には4〜8GPUの並列化が性能面で有利
Tensor Parallelismはレイテンシ（遅延）に、Expert Parallelismはシステムスループット（throughput）に強み
- Basetenは低レイテンシ最適化を目的にTensor Parallelismを選択
BlackwellではTensorRT-LLM MoE Backendを適用し、以前のTritonバックエンドよりCUDAカーネル性能が向上
HopperおよびBlackwell環境それぞれに最適化された設定を公開し、Model APIではBlackwellベースの設定を採用

追加のパフォーマンス最適化

第1次最適化のみでSOTAレベルのスループットとレイテンシを実現したが、改善の余地は十分ある
次の主要アップデートはSpeculative Decodingの導入予定
- この方式では、より高速な小型「ドラフト」モデルが予測トークンを生成し、本モデルが検証
- BasetenはEagle 3を推奨するが、推論スタック内で10個以上のアルゴリズムを状況に応じて柔軟に運用
Speculative decodingは一度に複数トークンの推論を進め、効率的な速度向上を可能にする

まだコメントはありません。

まだコメントはありません。