Kubernetesを7500ノードまでスケールさせる
(openai.com)-
OpenAIが GPT-3、DALL·E などのために k8s を拡張した経験を共有
-
一般的には単一クラスタを 7500 ノードまでスケーリングすることはないため、特別な管理が必要になるが、こうすることでシンプルなインフラ構成を持てて、コード変更なしでも容易に拡張可能
-
一般的な企業の環境とは、アプリケーションやハードウェアがやや異なる
→ GPU は NVLink / GPUDirect などを通じてノードのハードウェアをすべて使う必要がある
→ そのため通常は 1 つの Pod がノード全体を占有
→ つまりノード数は多いが、スケジューラへの負荷は相対的に小さい
- ネットワーキング
→ Pod / ノードが増えたため、Native Pod Networking に移行
→ Alias ベースの IP アドレス処理に変更し、20 万個の IP をいつでも利用可能
- API Server
→ kube-prometheus が提供する Grafana ダッシュボードを使用
→ HTTP 429(Too Many Requests) と 5xx(Server Error) を高レベルの問題シグナルとして警告するのが有用
→ API Server は常にクラスタ外部で実行
1件のコメント
かなり長い文章ですが……この規模でクラスターを構成することはなさそうなので、簡単にだけ訳しました。