GPU-Usage-Audit: GPUはただ遊んでいるのではなく「占有されたまま」遊んでいるかも?!
(github.com/AI-Ocean)nvidia-smiでutilが1%と表示されるとカードは空いているように見えますが、
誰かがJupyter Notebookで8GBを確保したまま席を外していたら、そのGPUは誰も使えません。
共有サーバーや時間課金のGPUでは見えない無駄です。
そこで作りました。GPU-Usage-Audit!
NVIDIAドライバさえ入っていれば、GPUメトリクスをSQLiteに記録しておき、あとでレポートとして出力してくれます。
GPU使用時間を2つではなく3つに分けてレポートします。
実際に計算している時間、完全に空いている時間、そしてメモリは確保しているのに計算はしていないidle-held時間です。
多くのツールは後ろの2つをひとまとめにしてしまいますが、無駄はまさにそこに潜んでいます。
確保された時間をGPU-hoursに換算し、ユーザーごとに実行していれば誰がどれだけ占有しているかもあわせて表示します。
インストールと実行は uv tool install gpu-usage-audit && gua daemon の1行だけ!
データがたまったあとで gua report と打つだけでレポートを見られ、
データなしで結果だけ先に見たければ gua demo でダミーデータを試せます。
まだコメントはありません。