2 ポイント 投稿者 GN⁺ 2024-04-01 | 1件のコメント | WhatsAppで共有

Tailscale.com 2024年3月7日のサービス停止について

  • 2024年3月7日、Tailscale.com は TLS 証明書の有効期限切れにより、約90分間アクセスできなかった。
  • この問題は迅速に特定・解決され、主にマーケティング資料とドキュメントに影響した。
  • 予期しないサービス停止は問題であり、その発生原因、影響、再発防止のための対策について説明したい。

発生したこと

  • 2023年12月に、新しいホスティングプロバイダーへの移行を含む大規模なウェブサイト刷新を実施した。
  • ホスティングプロバイダーが IPv6 を標準ではサポートしていなかったため、IPv6 リクエストを処理するために別のプロキシを運用した。
  • この構成はホスティングプロバイダーによって「誤設定」と見なされ、警告を受けたが、自動証明書更新を妨げることになるとは認識していなかった。
  • 証明書の失効を確認するプローバーは存在したが、IPv6 経由でのみ確認していたため、プロキシが管理する有効な証明書だけを確認してしまい、間近に迫った失効を検知できなかった。

影響

  • Tailscale のほとんどの操作はメインのウェブサイトにアクセスする必要がないため、多くのユーザーは通常利用に支障を受けなかった。
  • ドキュメント、ブログ、その他の参照資料にはアクセスできず、管理コンソールと設定ページは影響を受けなかったが、直接アクセス方法を知らないユーザーはオフラインだと誤解する可能性があった。
  • クイックインストールスクリプトにアクセスできず、一部のインストール(自動インストールを含む)の妨げとなった。
  • Tailscale パッケージを提供するドメインにはアクセス可能であり、Go の go get メカニズムによる影響はキャッシュのおかげで最小限に抑えられた。

解決のための対応

  • 問題を把握した後、「追加」の AAAA レコードを一時的に削除し、該当証明書を手動で更新した。
  • IPv6 経由でのサイトとサービスの到達性を維持するため、レコードを復元した。
  • 短期的には、複数の冗長なカレンダー通知と、手動更新のための指定時間を設定する予定である。
  • プローバー基盤を更新し、IPv4 と IPv6 のエンドポイントを個別に確認するようにする予定である。
  • ウェブサイト基盤で IPv6 をより直接的にサポートすることで、プロキシを不要にしたいと考えている。
  • Tailscale の設計のおかげで、ほとんどのユーザーはほとんどの用途において今回の停止の影響を受けなかった。

GN⁺の見解

  • Tailscale のサービス停止事例は、IT インフラ管理の重要性を強調している。特に、証明書更新のような基本的な保守作業がどれほど重要かを示している。
  • この事件は、IPv6 サポートの重要性と同時に、既存インフラとの互換性問題を解決するための創造的なアプローチが必要であることを示唆している。
  • 類似の機能を提供する他のサービスとしては、Cloudflare、Let's Encrypt などがあり、これらは自動証明書更新機能を提供して同様の問題を防ぐことができる。
  • 技術を導入する際には、インフラ互換性、自動化の可能性、そして保守のしやすさを考慮する必要がある。こうした事件は、技術選定において利点と欠点を慎重に評価すべき理由を示している。
  • この記事は、ユーザーと管理者に対して、証明書失効のような基本的なシステム管理作業への警戒心を呼び起こすのに役立つ可能性がある。

1件のコメント

 
GN⁺ 2024-04-01
Hacker Newsの意見
  • 期限切れになる証明書の問題

    期限切れになる証明書の問題が、新たな DNS 障害の原因になっている。Tailscale を使ってどこからでも安全に作業できる体験を共有している。Tailscale を通じてオンプレミスのサーバーや AWS の本番環境設定にアクセスでき、ローカル Wi‑Fi が遅くても別の場所から SSH で問題を解決できる。Tailscale はネットワークアクセス権を簡単に付与・取り消しできる機能を提供している。

  • 証明書の期限切れによる問題

    証明書の期限切れ問題が再び発生した。事後分析の一環として、マーケティングサイトと顧客運用の重要経路を分離することを勧めている。GitHub や Zendesk のようなサイトのダウンタイムは、予想以上に頻繁だと指摘している。

  • マーケティングサイトとアプリの接続問題

    マーケティングサイトにアプリのログインページへのリンクを置いたことで起きた問題を共有している。マーケティングサイトが落ちると、ユーザーがアプリも落ちたと誤解しうることに気づいたという。ユーザーは提示された経路をたどり、別の経路の存在を知らないことが多い。

  • 価格設定への不満

    Tailscale のサービスは気に入っているが、VPN に対する適切なアクセス制御が月額 18 ドルと高く、経営陣に売り込みにくい。下位プランはアクセス制御なしでは売りにくい。

  • Web サイト提供事業者への疑問

    Web サイトの提供事業者はどこなのか、IPv6 非対応のために複雑な手順を踏まなければならないのかという疑問を提起している。

  • エンジニアリング文化への称賛

    12 月に大きな更新を、信頼できる CI/CD と監視プロセスを備えた状態で実施したことに羨望を示している。一方で、IPv6 設定の問題で証明書更新に失敗したこと、問題解決に 90 分かかった理由、IPv6 をサポートする DNS プロバイダーへ移行しなかった理由など、未解決の疑問が残っている。

  • TLS 終端が必要な理由への疑問

    プロキシが TLS を終端する必要があるのか、単純な TCP プロキシで十分ではないのかという疑問を提起している。TCP プロキシを使えば自動更新も可能かもしれない。

  • カレンダー通知への風刺的な言及

    先祖たちのように、複数の重複したカレンダー通知を設定することへの機知に富んだ表現が気に入った。

  • セキュリティへの懸念

    Tailscale がセキュリティに関する些細なミスを一度でもすれば、やや被害妄想気味の人にとっては危険すぎる可能性があると指摘している。これについて、より良い解決策が必要だとしている。

  • インフラ監視と自動更新への提案

    インフラ監視を導入し、すべての公開ドメインについて IPv4 と IPv6 に接続して、証明書の期限切れ 19 日前に警告するコードを追加すべきだと提案している。自動更新を期限切れ 20 日前に設定することで、SSL 関連の停止を防げるとしている。