複数のGitHubサービスで障害が発生
(githubstatus.com)- Webhooks、Actions、Copilot を含む複数のGitHubサービスで、可用性の低下と利用不能が同時に発生
- 当初は Copilot と Webhooks の可用性低下を調査していたが、その後複数サービスの障害へと調査範囲が拡大
- Actions は別途パフォーマンス低下が発生しており、根本的な問題が確認された後に緩和対応が進められた
- Actions と Copilot の低下が緩和された後、安定性の監視と残るサービスに対する 検証作業 が継続され、Webhooks も正常動作へ復旧
- 今回の障害は最終的に 解決済み の状態で終了し、詳細な root cause analysis は準備ができ次第共有される予定
障害の経過
- GitHub の 複数サービスで障害 が発生し、影響範囲には Webhooks、Actions、Copilot が含まれた
- 当初は Copilot と Webhooks の 可用性低下 の調査を開始
- その後、複数のサービスが 利用不能状態 を示し、調査範囲が拡大
- Actions は別途 パフォーマンス低下 が発生し、原因の特定が継続
- 根本的な問題が確認された後、緩和対応 が進められた
- Actions と Copilot に影響した低下は緩和され、安定性維持のための監視が継続
- 多くのサービスで緩和対応が進んだ後、残るサービスに対する 検証作業 も継続
- Webhooks も正常動作へ復旧
- 最終的に今回の障害は 解決済み の状態で終了し、詳細な root cause analysis は準備ができ次第共有される予定
1件のコメント
Hacker Newsの意見
自宅でいろいろ self-hosting に移している最中で、昨日ついに家の中に Forgejo インスタンス を完成させた
Linux と Windows は VM、macOS は Mac Mini で CI/CD runner まで付けて、これでソースコードと Actions、実際のインフラが全部本当に家の中に置かれるようになった
たいてい self-hosting に移してから満足感が来るまで1〜2か月かかるのに、今回は移行完了の翌日からこの選択が正しかったと確信できて、かなり気分が良かった
一日中会社で壊れたシステムを直した後に、家に帰ってまで自分の 個人 sysadmin の役までやりたくはない
クリスマスに買った、性能も十分な Minisforum も机の上にあるけど、まだ電源すら入れていない
Forgejo を NUC 1台と Proxmox 上の複数サービスと一緒に動かしているが、ページ読み込みは 6ms くらいだ
Immich はそこまで速くないにせよ、それでも Google Photos よりはるかに速い
UI はだいたい似ているのに、GitHub よりずっと快適 だ。uptime が 90% を超えるというだけでも理由として十分なくらいだ
最近は GitHub 関連の問題があまりに頻繁で、サイトを普通に眺めるだけでも遅かったり、完全に止まったりすることが多い
Linux と macOS は Mac Mini と Claude が生成した Ansible task file で設定したが、Windows VM の構成はかなりつらそうに見えた
もしデプロイ手順を単純化する方法を見つけていたら知りたい
ただし公開プロジェクトは、就職市場と GitHub のネットワーク効果のため移しづらい
今は必要なもののためにローカルサービスを20個くらい回しながらシステム管理者ごっこをしている気分で、いちばん大事なのは、これでもうデータ消失を防ぐ責任が自分にあるのだから 定期バックアップ を必ず整えることだ
https://mrshu.github.io/github-statuses/ を見ると uptime が 88.15% まで下がっている
個別コンポーネント基準で見ても最高が 99.78% なので、かろうじて two nines レベルだ
2025年には10億コミットだったのに、今では週2億7500万コミットで、線形成長だけを仮定しても今年は140億コミットのペースだという
GitHub Actions も 2023年の週5億分から 2025年には10億分に増え、今週は現時点で 21億分 だという
出典は GitHub COO の 2026-04-03 の投稿: https://x.com/kdaigle/status/2040164759836778878
https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
こういう障害が繰り返されても、GitHub が実際に 意味のあるビジネス損失 を被っているのか気になる
業界では長いあいだ信頼性とブランド価値が核心だと言われてきたのに、最近はそれをほとんど気にしていないように見える
自分の認識が間違っているなら、喜んで正してほしい
ところが LLM が少し良くなると、その話は丸ごと消えてしまったように感じる
大企業は内部インスタンスである程度守られていて、残りはそこまで致命的ではないか、自前のソリューションを作るか移行するだけのリソースがない
大規模に使う人たちにとって本当にまともな代替があるといいのだが
90日ローリング期間の基準で two nines を下回るには、追加の障害があとおよそ 16時間 ほど必要そうだ
心配はいらないと言うべきか、status page は依然として 緑で 100% 正常 だと言っている
静的ページ1つにもアクセスできないのにそうなのだ
もう今では、GitHub のサービスに 問題のない日 が来るたびに HN の投稿が1本立つべきなくらいだ
でなければ、それが単なる通常状態ということになる
以前 Bitbucket 側で、複数 repo にまたがって git history の1日分 を吹き飛ばしたことがあった
障害というより向こうのデータ問題で、ローカル clone のおかげで大半は救えたが、その時間帯の issue と PR はそのまま消えた
それでサイドプロジェクトとして gitbacker を作り始めた
repo 自体をバックアップするのは簡単だが、本当に面白い部分は metadata のバックアップだ
今日また非常に深刻な事故があった: https://www.githubstatus.com/incidents/zsg1lk7w13cf
merge queue を squash merge や rebase と一緒に使ったときに生じた回帰のため、2026-04-23 16:05-20:43 UTC の間に一部の PR が誤ってマージされたという
こちらではその時間中にデフォルトブランチで コミットが8個ほど丸ごと巻き戻された
GitHub の incident の中でも、ここまで深刻なのは初めて見た
本来は merge conflict を防ぐためのツールが、逆に メインラインブランチ に壊れたコミットを直接書き込んでいたのだから皮肉だ
本当に強いストレスだった
ダウンタイムも問題だが、PR を巻き戻すのは一段階深刻さが上の失敗だ
本当に大混乱だった
うちの要件は git repos + actions くらいで比較的単純で、たまにあるダウンタイムも、継続的にコミットしてデプロイするチームではないのでそこまで致命的ではない
それでも今は代替を真剣に探しているところだ
ちょうど代替を探す人が押し寄せたのか、SourceHut も落ちていた。投稿時点ではダウンしていて、今はまた戻っている
https://sr.ht/
今日だけでも incident が 3回、それぞれほぼ1時間以上あったのに、日次ステータスは全部緑で 記録されたダウンタイムなし と出ている
以前赤いバーが付いていた incident と本質的に違って見えるわけでもなく、数時間単位ではなかったという程度しか違いがないように思える
ではあの緑のバーはいったい何を意味しているのか分からない
人々が十分に不満を言って初めて後から非緑に変わるのか、それとも当日の incident はツールチップにだけ一時的に表示されて、あとでそっと忘れられるのか疑わしい
これまでの緑の日付はツールチップに incident が一つも出ないのに、今日だけ複数見えることを考えると、どちらにせよ 意図的に誤解を招く表示 のように感じる