4 ポイント 投稿者 xguru 2021-01-27 | 1件のコメント | WhatsAppで共有
  • OpenAIが GPT-3、DALL·E などのために k8s を拡張した経験を共有

  • 一般的には単一クラスタを 7500 ノードまでスケーリングすることはないため、特別な管理が必要になるが、こうすることでシンプルなインフラ構成を持てて、コード変更なしでも容易に拡張可能

  • 一般的な企業の環境とは、アプリケーションやハードウェアがやや異なる

→ GPU は NVLink / GPUDirect などを通じてノードのハードウェアをすべて使う必要がある

→ そのため通常は 1 つの Pod がノード全体を占有

→ つまりノード数は多いが、スケジューラへの負荷は相対的に小さい

  • ネットワーキング

→ Pod / ノードが増えたため、Native Pod Networking に移行

→ Alias ベースの IP アドレス処理に変更し、20 万個の IP をいつでも利用可能

  • API Server

→ kube-prometheus が提供する Grafana ダッシュボードを使用

→ HTTP 429(Too Many Requests) と 5xx(Server Error) を高レベルの問題シグナルとして警告するのが有用

→ API Server は常にクラスタ外部で実行

1件のコメント

 
xguru 2021-01-27

かなり長い文章ですが……この規模でクラスターを構成することはなさそうなので、簡単にだけ訳しました。