- Tarsnapの障害により、サービスがオフラインになりました。
- 障害は、AmazonのEC2 us-east-1リージョンでホストされていた中央Tarsnapサーバーのシステムステータスチェック失敗によって発生しました。
- 故障の正確な原因は不明ですが、孤立したハードウェア障害と推定されています。
- Tarsnapの監視システムは故障を検知し、運用者に通知を送りました。
- 代替のEC2インスタンスは作成されましたが、データ損失を防ぐため、Tarsnapサーバーのコードは自動的には再起動されませんでした。
- サーバー再起動後、ログにはファイルシステムの破損が示されており、以前のサーバーを復旧する代わりに新しいサーバーを設定することが決定されました。
- 復旧プロセスには、Amazon S3からメタデータヘッダーを読み取り、処理をローカルで再実行することが含まれていました。
- 復旧プロセスでは、マシン登録ログエントリおよび未初期化のログエントリ順序に関連するエラーが発生しました。
- 復旧プロセスは予想よりも遅く進み、より高速な性能のために最適化できる余地がありました。
- 状態復元プロセスは7月3日に完了し、サーバーは再びオンラインに戻りました。
- 障害後のトラフィックは、障害開始から約26時間16分後に再開されました。
- Tarsnapは障害に対する補償として、ユーザーアカウントに1か月分の保存料金の50%を提供しました。
- ユーザーは、質問や懸念がある場合はTarsnapの創業者であるColin Percivalに問い合わせるよう案内されています。
1件のコメント
Hacker Newsの意見