Tailscale.com 2024年3月7日のサービス停止について
- 2024年3月7日、Tailscale.com は TLS 証明書の有効期限切れにより、約90分間アクセスできなかった。
- この問題は迅速に特定・解決され、主にマーケティング資料とドキュメントに影響した。
- 予期しないサービス停止は問題であり、その発生原因、影響、再発防止のための対策について説明したい。
発生したこと
- 2023年12月に、新しいホスティングプロバイダーへの移行を含む大規模なウェブサイト刷新を実施した。
- ホスティングプロバイダーが IPv6 を標準ではサポートしていなかったため、IPv6 リクエストを処理するために別のプロキシを運用した。
- この構成はホスティングプロバイダーによって「誤設定」と見なされ、警告を受けたが、自動証明書更新を妨げることになるとは認識していなかった。
- 証明書の失効を確認するプローバーは存在したが、IPv6 経由でのみ確認していたため、プロキシが管理する有効な証明書だけを確認してしまい、間近に迫った失効を検知できなかった。
影響
- Tailscale のほとんどの操作はメインのウェブサイトにアクセスする必要がないため、多くのユーザーは通常利用に支障を受けなかった。
- ドキュメント、ブログ、その他の参照資料にはアクセスできず、管理コンソールと設定ページは影響を受けなかったが、直接アクセス方法を知らないユーザーはオフラインだと誤解する可能性があった。
- クイックインストールスクリプトにアクセスできず、一部のインストール(自動インストールを含む)の妨げとなった。
- Tailscale パッケージを提供するドメインにはアクセス可能であり、Go の
go get メカニズムによる影響はキャッシュのおかげで最小限に抑えられた。
解決のための対応
- 問題を把握した後、「追加」の AAAA レコードを一時的に削除し、該当証明書を手動で更新した。
- IPv6 経由でのサイトとサービスの到達性を維持するため、レコードを復元した。
- 短期的には、複数の冗長なカレンダー通知と、手動更新のための指定時間を設定する予定である。
- プローバー基盤を更新し、IPv4 と IPv6 のエンドポイントを個別に確認するようにする予定である。
- ウェブサイト基盤で IPv6 をより直接的にサポートすることで、プロキシを不要にしたいと考えている。
- Tailscale の設計のおかげで、ほとんどのユーザーはほとんどの用途において今回の停止の影響を受けなかった。
GN⁺の見解
- Tailscale のサービス停止事例は、IT インフラ管理の重要性を強調している。特に、証明書更新のような基本的な保守作業がどれほど重要かを示している。
- この事件は、IPv6 サポートの重要性と同時に、既存インフラとの互換性問題を解決するための創造的なアプローチが必要であることを示唆している。
- 類似の機能を提供する他のサービスとしては、Cloudflare、Let's Encrypt などがあり、これらは自動証明書更新機能を提供して同様の問題を防ぐことができる。
- 技術を導入する際には、インフラ互換性、自動化の可能性、そして保守のしやすさを考慮する必要がある。こうした事件は、技術選定において利点と欠点を慎重に評価すべき理由を示している。
- この記事は、ユーザーと管理者に対して、証明書失効のような基本的なシステム管理作業への警戒心を呼び起こすのに役立つ可能性がある。
1件のコメント
Hacker Newsの意見
期限切れになる証明書の問題
証明書の期限切れによる問題
マーケティングサイトとアプリの接続問題
価格設定への不満
Web サイト提供事業者への疑問
エンジニアリング文化への称賛
TLS 終端が必要な理由への疑問
カレンダー通知への風刺的な言及
セキュリティへの懸念
インフラ監視と自動更新への提案