1 ポイント 投稿者 GN⁺ 2025-02-21 | 1件のコメント | WhatsAppで共有

Hetznerのデバッグ: powerstat、sensors、dmidecodeで問題を解決

  • 背景

    • UbicloudはHetznerのAX162サーバーを導入したが、深刻な信頼性の問題に直面した。
    • AX162サーバーは旧モデルより高性能で価格も安かったが、クラッシュ頻度は16倍高かった。
    • 複数回のハードウェア更新を経て、ようやく問題が解決した。
  • 問題の発生

    • 最初のAX162サーバーを購入してから3週間でサーバークラッシュが発生。
    • システムログでNULLバイトが見つかり、これは電源喪失のような突然の障害を意味していた。
    • Hetznerはハードウェア検査を行ったが、異常は見つからなかった。
    • クラッシュ頻度が増加し、Hetznerはハードウェア欠陥が見つかるたびにサーバーを交換した。
  • 初期調査

    • システム負荷: 負荷が増えると問題が起きやすいと考えたが、負荷が低い時やほとんどない時にもクラッシュが発生した。
    • 温度: sensorsを使って温度を測定したが、クラッシュ時点の温度は平均より高くなかった。
    • 不良部品: dmidecodeコマンドでハードウェア情報を収集したが、クラッシュしたサーバーとそうでないサーバーの間に大きな違いはなかった。
    • 消費電力: powerstatツールで消費電力を測定し、Hetznerが電力使用を制限している可能性を疑った。
  • クラッシュ率データの収集と比較

    • 年間故障率(AFR)を使ってハードウェアの信頼性を測定した。
    • AX162サーバーは他モデルより16倍高い頻度で故障した。
    • 最初のクラッシュ後、80%のサーバーが24時間以内に2回目のクラッシュを経験した。
  • 新しいハードウェアでの安定性観察

    • Hetznerは不良マザーボードのロットを特定し、交換を推奨した。
    • 新しいマザーボードに交換した後もクラッシュは発生した。
    • 最新のマザーボードに交換して数か月監視した結果、クラッシュ問題は解決した。
  • プロセス改善

    • 新しいサーバーモデルを導入する際は、徹底した検証が必要。
    • 新しいハードウェアは、まず非中核業務から段階的に導入する。
    • リスク分散のため、より多くのベアメタルプロバイダーを追加する。
  • 結論

    • Hetznerサーバーの初期導入は問題を引き起こしたが、継続的な改善によって解決に至った。
    • Ubicloudは、信頼性と適応性を備えたクラウドソリューションを提供するため、今後も努力を続ける。

1件のコメント

 
GN⁺ 2025-02-21
Hacker Newsの意見
  • 他のほとんどのAXモデル(AX42、AX52、AX102)にも、数か月後に故障する深刻な信頼性の問題がある。これは欠陥のあるマザーボードに起因している。Hetznerは、特定の日付より前に製造されたサーバーのマザーボードの大半を交換しなければならない
  • 以前の会社では、HetznerでCPUファンの故障がよく見つかっていた。これは一般的なHD/SSD故障に加えて発生していた。独自の監視が必要であり、これがマネージドされていないサーバーがクラウドインスタンスより安い理由の1つでもある
  • 振り返ってみると、6か月待っていれば多くの問題を避けられたはずだ。初期導入ユーザーは、後になって修正される問題を見つけることが多い
    • これはとても良い助言で、安定性が必要なあらゆるシステムで従っている
    • セキュリティ上の問題がないなら、数か月待つか、1〜2バージョン遅れに留まる
  • Hetznerは、電力制限の可能性を確認も否定もしなかった
    • 電力制限の結果は何か? 記事によれば、ハードウェアの劣化が早まる可能性があるという
    • Hetznerの反応の乏しさとUbiCloudの測定からすると、実際に電力を制限していることを示唆しているように見える。そうでないなら、そう言っていたはずだ
  • Dellも時折この問題に見舞われる。古いサーバーの最初のバッチを受け取ったとき、I/O(背面)セクションを交換しなければならなかった。この問題を解決した後は、ほぼ10年間稼働した
    • これらのサーバーは最近退役させた。RAIDカードから電源レギュレータに至るまで、あらゆるものが摩耗していた
    • 構成変更のために完全に動作しているサーバーを再起動し、そのままRAIDカードを永久に失う経験は衝撃的だ
  • 電力に制約がある中で台数を増やすため、データセンター運営者は通常、1台あたりの消費電力を制限する。しかし、これによってマザーボードの劣化が早まる可能性がある
    • これについて説明できる人はいるだろうか? 直感に反している
    • 検索結果によれば、熱スロットリングに達すると高い動作温度が部品(たとえばコンデンサ)をより早く劣化させる可能性があるという。しかし記事ではさまざまな温度センサーを調査しており、これは当てはまらない
  • 電源/信号の問題やVRMの問題かもしれないと気になる。CPUが熱くないからといって、ボード上の他の部分が仕様外になって致命的な故障を起こしていないとは限らない
    • 電源/信号に関するマザーボードの問題は診断が難しい。別の部品に関係する問題として現れるため、実際にマザーボードを交換する前に、あらゆるものを交換することになりがちだ
  • 現在使っているAX102でも似たことが起きた。ネットワークカード関連の問題でクラッシュが発生した。幸い、Hetznerのサポートがハードウェア交換を手伝ってくれた。大変な苦労だったが、ハードウェア問題の解決について良い教訓になった
  • データセンターの経験がある人なら、Hetznerがマザーボード供給業者とどのような商業的解決に至ったのか推測できるだろうか? すべてのマザーボードを無償で交換し、補償も受けたと考えてよいのだろうか?
  • 電力制限があると推測する前に、そのシステムでどのCPUガバナーが動いているのか見たい。多くのデフォルトのLinuxインストールでは省電力ガバナーが動作しており、これは最大周波数と最大電力を制限する