- 最近、AIコーディングツールの利用に関連したサービス障害が相次いだことを受け、AmazonはすべてのAI支援によるコード変更についてシニアエンジニアの事前承認プロセスを導入
- 内部メモによると、障害の原因として**「ベストプラクティスとセーフガードがまだ完全に確立されていない新しいGenAI活用」**が指摘された
- 今月、AmazonのWebサイトとショッピングアプリが約6時間ダウンし、顧客は決済完了、アカウント情報の確認、価格照会などができなかったが、原因は誤ったソフトウェアコードのデプロイ
- AWSでもAIコーディング支援ツールKiroが環境を削除・再作成したことで13時間の障害が発生するなど、少なくとも2件のAI関連インシデントが報告された
- AIコーディングツールの本番適用に伴う運用リスクが現実化する中、ジュニアおよびミドルレベルのエンジニアによるAI支援変更にはシニアエンジニアのサインオフを必須とする即時措置を実施
Amazonの社内会議と対応措置
- AmazonのEコマース部門は、最近発生した連続的なサービス停止を分析するため、大規模なエンジニア会議を招集
- 会議の議題にはAIコーディングツールの利用に関連した事故が含まれた
- 社内ブリーフィングメモでは、ここ数カ月で「高リスク(high blast radius)」の事故が増えており、「Gen-AI支援の変更」が主要因として言及された
- 文書には、**「まだ完全に確立されていない新しいGenAIのユースケース」**が寄与要因として明記された
- 上級副社長のDave Treadwellはメールで、「最近、サイトとインフラの可用性が良くなかった」と述べた
AI関連の障害事例
- AmazonのWebサイトとショッピングアプリは今月初めに約6時間停止し、原因は「誤ったソフトウェアコードのデプロイ」だと確認された
- これにより顧客は決済完了、アカウント情報の確認、商品価格の照会などができなかった
- AWSでもAIコーディングアシスタントKiroの利用中に問題が発生
- 12月中旬、Kiroが環境を「削除してから再作成」すると判断したことで、13時間にわたりコスト計算機サービスが停止した
- Amazonはこの件を、**「中国本土の一部地域における単一サービスに限定された非常に限定的な事象」**と説明
- 2件目の事故については、**「顧客向けAWSサービスには影響がなかった」**とAmazon側が付け加えた
新たな承認プロセスと運用改善
- Treadwellは週次会議**「This Week in Stores Tech (TWiST)」**を通じて、問題の原因と短期的な改善措置を議論する予定
- 従来は任意参加だった会議を、全従業員に参加を推奨する形へ変更
- 今後、ジュニアおよびミドルレベルのエンジニアが行うAI支援コード変更は、シニアエンジニアのサインオフ承認を受けなければならない
- Amazonは今回の見直しを**「通常の業務プロセスの一環」**と位置づけ、継続的な改善を目指すとしている
人員削減と障害増加を巡る議論
- Financial Timesは、一部のエンジニアが**人員削減後に「Sev2」級のインシデント(迅速な対応が必要な中程度の障害)**が増えたと述べていたと報じた
- Amazonは近年複数回のリストラを実施しており、2026年1月だけで16,000人のコーポレート職を削減した
- ただし会社側は、人員削減が障害増加の原因だという主張には同意していない
今後の方向性
- AmazonはWebサイトの可用性レビューと運用実績の点検を定例化している
- 会社はAIコーディングツールの安全な活用と障害防止体制の強化を並行して進めている
- 今回の措置は、AI導入の拡大の中で人的検証プロセスの重要性を改めて浮き彫りにする事例と評価される
6件のコメント
AIコードをシニアがレビューすれば安全だと保証できるわけではないですよね。
CrowdStrikeの事件 はAIが原因ではなかったですし、
HeartbleedもAIがなかった時代の事故ですよね。
結論としては、誰かに責任を負わせるというのが要点で、
法的に責任を負う人間が必要だから自分たちは代替されないだろうと話していた税理士の方々のブラックユーモアを思い出します。
そうですね。だから、AIエージェントに法的な署名のようなものを組み込まない限り、こうしたことは続く気がします..
では、Anthropic や OpenAI の利用コストは天文学的に高くならないといけませんね
APIを1回呼び出すたびに保険料を払うことになるでしょうから
うーん……妄想ではありますが、IAMみたいに何かが出てくるんじゃないかという……感じです
税理士は刑務所に行く役割だと言われていたけど、保険会社が代わりに刑務所に行ってくれるわけではないので、結局は...
Hacker Newsの意見
今回の「mandatory meeting」は毎週開かれている全社運用会議のことらしい
先週大きな運用事故があったので、今週は参加率が高いだけだという
メディアがかなり誇張しているように感じる
さらに「ジュニアおよびミドルレベルのエンジニアによるAIコード変更にはシニアの承認が必要」という方針にも触れていた
定例会議であっても新方針の発表があるならニュース価値はあると思う
価格が表示されず、カートにも入れられなかった
Walmartのような競合だったらニュースになっていたはずで、不思議だ
「ジュニアとミドルレベルのエンジニアはシニアの承認なしにAIコードをプッシュできない」という方針は、
シニアレビューが万能だという思い込みから来ているように見える
実際には、シニアがコードを完全に検証するには、自分で書くのとほぼ同じだけの時間がかかる
つまりレビューには価値があるが、悪いコードを良いコードに変えるものではない
結局、「idiot proof」なシステムを作れば**『idiot』を雇ってもいい**という誤解が生まれるのが問題だ
バグ発見は副次効果にすぎず、本当に重要なのはテストしやすくし、コード複雑度を下げることだ
だが、そうした仕事は昇進の役には立たない
モデルが作業している最中から監視するほうが効率的だ
そうでなければAIは低品質コードの爆弾をまき散らす
専門家が5~15倍の時間をかけて修正すれば何とかなるが、そうでなければコードベースは壊れる
とくにひどいコードは理解するのに倍の時間がかかる
既存コードと新しい解決策を同時に頭の中に置いて比較しなければならず、認知負荷が大きい
結局、企業が平均的成果の管理中心へ変わっていく自然な進化のようにも見える
Amazon内部では、大半の人が解雇されないことと昇進にしか関心がない
開発者評価は「チケット処理速度」「PRコメント数」「ドキュメント作成」で決まる
AIを使わなければ競争に負ける
こういう構造では「AIの使用を控えろ」という要請は現実的に機能しにくい
うまく協業しているチームほどPRでの議論は少ない
本当に必要なのはself-reviewプロセスだと思う
AIが書いたコードをそのままプッシュするのは危険だ
GitHubのような場所に「self-review必須」オプションを追加して、作者自身が確認したことを明示すべきだ
ローカルUIが速いので、プロジェクトの流れをよりよく把握できる
当たり前のことに思えるが、実際には役に立つ
Amazonのリーダーシップへの信頼が低下している
ベテランの退職、AI品質の低下、頻発する障害によって、エンジニアリングが崩れていく印象だ
意思決定者たちはパイプラインのボトルネックを理解していないようだ
AIが10倍の速さでdiffを作れても、レビューがボトルネックなら全体速度は変わらない
結果としてコストと不確実性だけが増える
AIコードレビューをPR段階で行うようになると、生産性上の利点は消える
AIは10分で機能を作れるが、人間のレビューには10~20倍の時間がかかる
本当に難しいのは「何を、なぜ作るのか」と「正しく作れたか」を知ることだ
AIはまだその2つができない
LLMが生産とレビューの両方をうまくこなせるようになるまでは、リスクだけが増す
現実的ではない方針だ
そのときには、テスト後すぐにデプロイする時代が来ると言う
コードレビューの本質はエラー検出ではなく、チームの同期と学習だ
レビューを通じて設計や標準を共有し、ジュニアを育成し、多様な視点を取り入れる
こうした過程こそがエラーそのものを減らす鍵になる
設計の方向を誤ると、後から戻すのは難しいからだ
AIブームに注ぎ込まれている時間とコストが大きすぎる
今後、重要インフラのソフトウェアがどうなるのか心配だ
航空ソフトウェアまでこの流れに巻き込まれれば致命的な結果になりかねない
AIは品質向上のための補助ツールとして使われる可能性が高い