1 ポイント 投稿者 GN⁺ 2024-09-14 | 1件のコメント | WhatsAppで共有

10年間ドライブ故障なしの71 TiB ZFS NAS

  • ハードウェア

    • 24台の4 TBドライブで構成された71 TiBのZFS NAS
    • 10年間でドライブ故障は一度もなし
    • 現在は2枚目のマザーボードと電源ユニットを使用中
  • ドライブ管理

    • 4 TBのHGSTドライブは10年間で約6000時間使用
    • サーバーを使わないときは電源を切っておくと、ドライブ寿命の延長に役立つ
    • サーバーをリモートで起動・停止するスクリプトを使用
    • 省エネとドライブ寿命延長のため、サーバーはデフォルトで停止状態にしている
  • マザーボード交換

    • マザーボード故障のため数年前に交換
    • BIOSに入れない、起動に失敗するなどの問題が発生
    • Ebayで同じマザーボードを購入して解決
  • ZFS

    • ZFSは複数のOSで問題なく動作
    • zpool scrub を何度か実行したが、チェックサムエラーはなし
    • ZFSはデータ損失防止に非常に効果的
  • 騒音管理

    • デフォルトのファン回転数が非常に高く、騒音が大きい
    • 温度に応じてファン速度を調整するスクリプトを作成
    • PIDコントローラーを使ってファン速度と騒音を調整
  • ネットワーキング

    • 当初はギガビットネットワークコントローラーを使用
    • Infinibandカードに切り替えた後、700 MB/sの転送速度を達成
    • 現在は10Gbit Ethernetカードを使用
  • 電源ユニット

    • 起動時にすべてのドライブが同時にスピンアップし、600Wの電力を消費
    • 電源ユニットが起動時に時々電力を遮断する
  • UPSの使用中止

    • UPSが追加の電力を消費するため使用を中止
    • 電力問題によるシステム損失のリスクを受け入れている
  • バックアップ

    • 重要なデータは3回バックアップ
    • 重要でないデータはバックアップしない
    • ハードウェア交換とZFSでデータ損失を防止
  • 今後の計画

    • 現時点では追加ストレージの計画はない
    • 予備のマザーボード、CPU、メモリ、HBAカードを保有
    • ドライブ容量の増大により、より小型のフォームファクターへ移行する可能性がある
    • システムが故障したら、ストレージ趣味をやめる可能性もある

GN⁺のまとめ

  • この記事は、10年間ドライブ故障なしで運用された71 TiBのZFS NASに関する経験を共有している
  • サーバーを使わないときに電源を切っておくことは、ドライブ寿命の延長に大いに役立つ
  • ZFSはデータ損失防止に非常に効果的で、ファン速度の調整によって騒音を減らせる
  • ネットワーク転送速度を高めるため、さまざまなネットワークカードを使用してきた
  • バックアップ戦略と電源ユニット管理に関する経験も共有している

1件のコメント

 
GN⁺ 2024-09-14
Hacker Newsの意見
  • ZFSとBTRFSに関する議論が主だが、bcachefsを使ったことがある人がいるのか気になる

    • bcachefsはLinuxカーネルに含まれており、エンドツーエンドのチェックサム機能を備えている
    • ファイルシステムの責務を真剣に捉えている作者がいる
  • ドライブのローテーション計画があるのかという質問

    • 24台の同一モデルのドライブを使用中で、同じロットから出たように見える
    • 摩耗状態が似ているため、同時に故障する可能性が高い
    • 信頼できるストレージは難しい
  • ドライブを常時稼働させておく方が、定期的に電源を切るより摩耗を減らせるという反対意見を聞いた

    • ZFS NASを常時稼働させ、定期的にデータをスクラブすることを好む
    • 10年間で4台構成のドライブシステムを運用し、2台のドライブが故障したが、これはエンタープライズ向けドライブではなかった(WD Green)
  • 大型ファンは低RPMでも多くの空気を動かせ、エネルギー効率が高い

    • Oxide Computerは80mmファンを使い、静かで消費電力が少ない点を強調している
    • 他のサーバーではファンの消費電力が全体の25%に達するが、これらは約1%しか使わない
  • 映画コレクションについてもっと聞きたい

    • 最初のアイテムをどう選んだのか、そして10年以上コレクションに残っているアイテムに関心がある
  • 電力問題でシステムを失うリスクを取っている

    • UPSは電力の不均衡によるまれな故障を防ぐ
    • 建設作業や落雷によって電力スパイクが発生することがある
    • UPSはサーバーが損傷する前に自ら故障して保護する
  • 24台のドライブは性能面で利点があるかもしれないが、6ベイNASと18TBディスクを使う方が、電力使用、騒音、設置スペース、コスト、信頼性の面で多くの利点がある

  • ドライブが動作する環境は寿命に大きく影響する

    • 住宅環境はデータセンターやオフィス空間より変動が大きい
    • 温度や湿度の変動、ほこりの影響が大きい
    • 清潔で安定した環境ではドライブ故障が著しく減る
  • ドライブを止めることが秘訣だったのではなく、単に運が良かっただけだった

    • 4TB HGSTドライブを10年以上24/7で使っているが、故障はない
    • 他の人たちは同じドライブで何度もRMAを経験している
  • 電源サイクルの変更が危険なドライブもあった

    • 誰にとっても常に良いとは限らない
    • 一部のSSDは定期的な通電を必要とする
    • NASのデューティサイクルはこの要件を満たす可能性が高い
    • 電力コストは安くなってきた
    • Backblazeがドライブの電源オン/オフ寿命統計をモデル化しているのか気になる