GitHub: Git 操作の障害
(githubstatus.com)- 2025年11月18日(UTC)、GitHubで すべてのGit操作の失敗 が発生し、SSH・HTTPクライアントと生ファイルへのアクセスが中断
- 問題の原因は、内部サービス間通信に使用されていたTLS証明書の期限切れ と確認された
- GitHubは期限切れの証明書を交換し、影響を受けたサービスを再起動して 正常復旧 を完了
- その後、証明書期限切れ監視アラートを強化 し、手動で管理される証明書をなくす 自動化への移行作業 を進めている
- 今回の障害はGitHubの Git Operations と Codespaces に影響し、復旧後はすべてのサービスが正常状態に戻った
Git操作障害レポート
-
2025年11月18日 20:30〜21:34 UTCの間、GitHubで すべてのGit操作の失敗 が発生
- SSHおよびHTTPのGitクライアント操作、生ファイルへのアクセスがすべて影響を受けた
- Git操作に依存する製品も同様に障害を受けた
-
原因 は、内部サービス間通信に使用されていた 期限切れのTLS証明書 と確認された
- GitHubは証明書を交換し、影響を受けたサービスを再起動して問題を解決
- サービス再起動後、完全復旧 が実現した
-
GitHubは今後同様の問題を防ぐため、証明書期限切れアラートシステムを強化
- 関連領域の他の証明書についても 監視および自動化の点検 を実施中
- 残っている 手動管理証明書の廃止 と 自動化されたサービス間通信体制の構築 を加速化
障害の進行と復旧段階
- 20:39 UTC: Git操作とCodespacesで 可用性低下 の発生を報告
- 20:52 UTC: 一部のGit HTTP操作の失敗を確認
- 21:11 UTC: すべてのGit操作で失敗する現象を確認
- 21:25 UTC: Codespacesの 可用性低下が継続
- 21:27 UTC: 原因の特定完了、修正作業を進行
- 21:36 UTC: 修正デプロイ後、一部復旧 を開始
- 21:55 UTC: すべてのサービスが正常化、Codespacesの復旧完了
- 21:56 UTC: Git操作の正常稼働を確認
- 21:59 UTC: インシデント終了およびレポート公開
影響を受けたサービス
- Git Operations
- SSHおよびHTTPベースのGit操作全般
- Codespaces
- 一時的な可用性低下が発生
今後の対応
- 証明書期限切れ監視と自動化の強化
- 期限切れ前の警告アラート体制を確立
- すべての内部証明書の自動更新プロセスを点検
- セキュリティと運用の自動化拡大
- 手動による証明書管理を廃止
- 最新のセキュリティ慣行に沿った自動化されたサービス間通信を構築
1件のコメント
Hacker Newsのコメント
最近、主要なソフトウェアシステム障害があまりにも頻繁に発生しているようで不安になる
昨年は業務に影響した障害は4回だけだったのに、今四半期はすでに4回目だ
ネットワークソフトウェアのレジリエンス(resiliency) がだんだん失われている気がする
私たちのチームはモノリシック構成だが、Redis、S3、外部統合サービスなど依存先が多い
そのため障害条件を文書化し、テストとデプロイ自動化を強化し、クラウドの代わりにVPSへ移すなど単純化を進めた
その結果、システムははるかに安定し、予測可能になった
こうした地味だが不可欠な作業がなければ、複雑さだけが増してさらに脆弱になっていただろう
最近経験した障害は AWS us-east-1、Azure Front Door、Cloudflare、そしてGitHubの障害だった
顧客はレジリエンスや冗長インフラに金を使いたがらない
2008年以降10件あまりのプロジェクトをやってきたが、ほとんどは「運に任せよう」という姿勢だった
Gitは分散バージョン管理システムなので、GitHubがなくても作業はできる
GitHubは単なる便利なハブにすぎない
GitHubの信頼性の低さは深刻だと感じる
CI/CDに依存している人たちには致命的だ
内部では「うちのチームのCI/CDが壊れた」程度にしか認識せず、「世界の半分が止まった」という視点が欠けている
こうしたサイロ文化と「自分たちの問題ではない」という態度が信頼性低下につながる
しかも独占的地位のおかげで、顧客も仕方なく我慢して使う構造になっている
昔のVerioやVerisignでも見た「どうせ他に行けないだろう」という態度と同じだ
最近クラウド/SaaS障害が本当により頻繁に発生しているのか気になる
単に報道が増えただけなのか、実際に頻度が増えているのかわからない
もしかして予算削減、人員削減、AI導入、過剰成長のせいだろうか?
昔は年に1〜2回だったのに、今ではほぼ毎月、最近では毎週レベルだ
小さなAIコード断片がドミノ式障害を引き起こすこともあり得る
大規模レイオフが信頼性低下に影響したと見る向きもある
結局最後の10%の安定性作業が無視されている気がする
pushできなくて、最初は自分の問題だと思った
今日はもう諦めて明日やり直すことにした
upstream unhealthyメッセージだった今日は働きたくなかったのに、Cloudflareに続いてGitHubまで落ちたので、もう休めというサインのようだ
もっと多くの技術主権と分散化が必要だ
この5年で使ったサービスの中で、GitHubが最も不安定だった
GitLabのほうが良いのか気になる。もうGitHubへの信頼はほぼゼロだ
大規模モノレポ環境だからかもしれないが、確かにスケーラビリティの問題はある
それでもリポジトリ、CI/CD、イシュー、Wikiを一か所に置けるのは利点だ
GitHubはクラウド障害に弱く、GitLabは自動アップグレード中断が多い
それぞれ長所と短所がある
数MB単位のJSを読み込むせいで、低速ネットワークではページがほとんど開かない
緊急時にはGitHubのWeb UIで直接ファイルを編集できる
しかしGH Actionsの
actions/checkout@v4は現在gitの問題で動作していないこの10年間、大企業とスタートアップを行き来して見てきた共通パターンがある
スタートアップ → エンタープライズ顧客対応 → 複雑な再設計 → 理想主義 → 利益追求 → 製品の肥大化 → 中核エンジニア離脱 → 品質低下
こうしたサイクルはクラウド大手(AWS、Cloudflare、GCPなど)にも繰り返されている
内部的にも各サービスが小さなビジネス単位に分割され、利益中心で動いている
結局、基盤インフラでさえ利益圧力によって弱体化している
「AWSやGCPは大きすぎて潰れないだろう」という信念は危険だと感じる
しかし初期スタートアップの技術的負債やセキュリティ問題も深刻だった
結局、大規模成長の過程でシステムのひずみが表面化するのは自然なことだ
GitHubのステータスページに「一部のユーザーに問題が発生する可能性があります」という文言がまた出ていた
しかし実際にはHTTPSだけでなくSSH pushもすべて失敗している
PR的な婉曲表現よりも透明な情報公開のほうが、かえって信頼を高めるはずなのに
しかもステータスページの更新自体が遅いことも多い