- DownDetectorサイトの稼働状況を複数地域からリアルタイムで点検するウェブサービス
- ロンドン、オークランド、ニューヨークなど3地域のサーバーでHTTPレスポンスコードと**レイテンシー(latency)**を測定
- すべての地域でHTTPコード**200(正常応答)**を返しており、サイトは正常に稼働中
- 地域別の平均レイテンシーは478〜586msの範囲で表示
- 主要な障害監視プラットフォームの信頼性検証ツールとして活用できる可能性
地域別の点検結果
- London, UK地域で状態はUp、HTTPコード200、レイテンシー547ms
- Auckland, NZ地域で状態はUp、HTTPコード200、レイテンシー478ms
- New York, US地域で状態はUp、HTTPコード200、レイテンシー586ms
- すべての地域で同じ結果が繰り返し確認され、DownDetectorサービスが正常運用中であることを確認
サービス概要
- このサイトはDownDetectorの状態を監視する専用モニタリングページ
- 各地域ごとにHTTPレスポンスコードとレイテンシーを定期的に測定して表示
- 障害監視プラットフォーム自体の可用性検証のための参考指標を提供
- 原文に追加情報はなし
1件のコメント
Hacker Newsのコメント
ヨーロッパ拠点の個人開発者として、今年初めからすべてのインフラをヨーロッパのサービスへ移行したとのこと
Cloudflareの代わりにBunny.net、AWSの代わりにHetzner、ビジネスメールはInfomaniakに切り替えた
これまで一度もダウンタイムはなく、米国のサービスから完全に切り離された感覚がとても良いという
大企業の環境では「AWSを使っていればこんなことはなかったのに」という言葉がよくある。昔のIBMのようなものだ
HetznerはAWSよりはるかにシンプルなサービス群を提供しているので、複雑さが少ない
ただし、ブランド認知や「プロフェッショナルに見えるか」といった文化的要因も依然として大きい
インフラ選びは自由だが、可用性に対する認識が実態と異なることはあり得る
メンテナンス通知はあったが、そのサーバーは影響対象の一覧に入っていなかった
Hetznerが悪いという話ではなく、ヨーロッパでもこうした小さな事故は起きる
Bunny.netがそこまで代替できるかは疑問だ
昨日のCloudflare障害のとき、Downdetectorまで一緒に落ちていてみんな笑っていた。絶妙なタイミングだった
「3つのDown Detectorがバーに入った」というジョークがあった
1つ目が「わからない」、2つ目も「わからない」、3つ目が「はい」と答える
「これは本当に金だ(GOLD)」と言いながら、「じゃあダウンディテクターを監視するダウンディテクターを監視するダウンディテクターは誰が監視するんだ」というメタジョークが続いた
実はDowndetector自体が完全に落ちていたわけではなく、Cloudflareの人間認証モジュールが問題だった
そのため技術的には「正常」だったが、実際には使えなかった
「君のダウンディテクターが生きているか監視する、別のダウンディテクターが必要だ」というジョークもあった
「Downdetectorsdownが延々と続く構造」という言い方も出ていた
ダウンディテクター同士が互いにハートビートを送り合って監視すれば、一部が死んでも全体は生き残る構造が可能になる
自己修復構造を備えれば、はるかに弾力性の高いネットワークになる
「Sup dawg, I heard you like down detectors」というミーム調のコメントもあった
Downdetectorのステータスページ も直接共有された
「Cloudflare障害でDowndetectorが落ち、そのせいでCloudFrontにまで負荷がかかった状況だ」として、
その負荷にまで耐えられる新しいCDNを作ってみろという挑戦が示された
「Downdetectorはどうやって**『正常状態』を検知**するのか?」という質問もあった
Cloudflare障害の際、インデックスページは200を返していたかもしれない
ヘッドレスブラウザでスクリーンショットを撮って確認しようとすると、Cloudflareにブロックされそうだ
script.jsのfetchStatus()がgenerateMockStatus()を呼び出し、ランダムな応答時間を作り出す構造になっているつまり、本当の状態をチェックしているのではなく、模擬的なステータスデータを表示している方式だ