Kubernetesを7500ノードまでスケールさせる

(openai.com)

4 ポイント投稿者 xguru 2021-01-27 | 1件のコメント | WhatsAppで共有

OpenAIが GPT-3、DALL·E などのために k8s を拡張した経験を共有
一般的には単一クラスタを 7500 ノードまでスケーリングすることはないため、特別な管理が必要になるが、こうすることでシンプルなインフラ構成を持てて、コード変更なしでも容易に拡張可能
一般的な企業の環境とは、アプリケーションやハードウェアがやや異なる

→ GPU は NVLink / GPUDirect などを通じてノードのハードウェアをすべて使う必要がある

→ そのため通常は 1 つの Pod がノード全体を占有

→ つまりノード数は多いが、スケジューラへの負荷は相対的に小さい

→ Pod / ノードが増えたため、Native Pod Networking に移行

→ Alias ベースの IP アドレス処理に変更し、20 万個の IP をいつでも利用可能

→ kube-prometheus が提供する Grafana ダッシュボードを使用

→ HTTP 429(Too Many Requests) と 5xx(Server Error) を高レベルの問題シグナルとして警告するのが有用

→ API Server は常にクラスタ外部で実行

1件のコメント

xguru 2021-01-27

かなり長い文章ですが……この規模でクラスターを構成することはなさそうなので、簡単にだけ訳しました。