powerstat、sensors、dmidecodeでHetznerの問題を発見
(ubicloud.com)Hetznerのデバッグ: powerstat、sensors、dmidecodeで問題を解決
-
背景
- UbicloudはHetznerのAX162サーバーを導入したが、深刻な信頼性の問題に直面した。
- AX162サーバーは旧モデルより高性能で価格も安かったが、クラッシュ頻度は16倍高かった。
- 複数回のハードウェア更新を経て、ようやく問題が解決した。
-
問題の発生
- 最初のAX162サーバーを購入してから3週間でサーバークラッシュが発生。
- システムログでNULLバイトが見つかり、これは電源喪失のような突然の障害を意味していた。
- Hetznerはハードウェア検査を行ったが、異常は見つからなかった。
- クラッシュ頻度が増加し、Hetznerはハードウェア欠陥が見つかるたびにサーバーを交換した。
-
初期調査
- システム負荷: 負荷が増えると問題が起きやすいと考えたが、負荷が低い時やほとんどない時にもクラッシュが発生した。
- 温度: sensorsを使って温度を測定したが、クラッシュ時点の温度は平均より高くなかった。
- 不良部品:
dmidecodeコマンドでハードウェア情報を収集したが、クラッシュしたサーバーとそうでないサーバーの間に大きな違いはなかった。 - 消費電力:
powerstatツールで消費電力を測定し、Hetznerが電力使用を制限している可能性を疑った。
-
クラッシュ率データの収集と比較
- 年間故障率(AFR)を使ってハードウェアの信頼性を測定した。
- AX162サーバーは他モデルより16倍高い頻度で故障した。
- 最初のクラッシュ後、80%のサーバーが24時間以内に2回目のクラッシュを経験した。
-
新しいハードウェアでの安定性観察
- Hetznerは不良マザーボードのロットを特定し、交換を推奨した。
- 新しいマザーボードに交換した後もクラッシュは発生した。
- 最新のマザーボードに交換して数か月監視した結果、クラッシュ問題は解決した。
-
プロセス改善
- 新しいサーバーモデルを導入する際は、徹底した検証が必要。
- 新しいハードウェアは、まず非中核業務から段階的に導入する。
- リスク分散のため、より多くのベアメタルプロバイダーを追加する。
-
結論
- Hetznerサーバーの初期導入は問題を引き起こしたが、継続的な改善によって解決に至った。
- Ubicloudは、信頼性と適応性を備えたクラウドソリューションを提供するため、今後も努力を続ける。
1件のコメント
Hacker Newsの意見