- MicrosoftのAI研究チームがGitHubでオープンソースの学習データを公開した際、誤って38テラバイトの個人データを露出
- 露出したデータには、2人の従業員のワークステーションのディスクバックアップ、シークレット、秘密鍵、パスワード、そして30,000件を超えるMicrosoft Teamsの社内メッセージが含まれていた
- このデータは、Azure Storageアカウントからデータを共有できるAzureの機能であるSASトークンを使って共有されていた。しかし、リンクがストレージアカウント全体を共有する設定になっていたため、データが露出した
- この出来事は、AIを活用する際に組織が直面する新たなリスクを浮き彫りにしており、より多くのエンジニアが大量の学習データを扱う中で、追加のセキュリティチェックと保護策が必要であることを示している
- Wizの研究チームは、設定ミスのあるストレージコンテナをインターネット上で発見したことで、この露出を見つけた
- 彼らはMicrosoft組織配下の
robust-models-transferというGitHubリポジトリを発見した。このリポジトリは画像認識向けのオープンソースコードとAIモデルを提供するために作られていたが、設定ミスにより、オープンソースモデル以上のものへアクセスできるURLが許可されていた
- 使用されたトークンも「フルコントロール」権限を許可するよう誤って設定されており、攻撃者は既存ファイルの閲覧、削除、上書きが可能だった
- この出来事はSASトークンのセキュリティリスクも強調している。SASトークンはストレージアカウントに高いアクセスレベルを付与し、有効期限に関する問題が生じる可能性がある。また、管理や取り消しも難しい
- Wizの研究チームは、セキュリティとガバナンスの欠如を理由に、外部共有のためにAccount SASを使うことを避け、時間制限付き共有にはStored Access PolicyまたはUser Delegation SASを使うよう提案
- チームはまた、外部共有専用のストレージアカウントを作成し、CSPMを使ってポリシーを追跡・適用することも推奨
- この出来事はセキュリティチームに対し、AI開発プロセスの各段階に内在するセキュリティリスクを理解し、データの過剰共有やサプライチェーン攻撃のリスクも含めて考慮すべきだと改めて示している
- Microsoftはその後、SASトークンを無効化してGitHub上で差し替え、潜在的な影響に関する内部調査を完了した
1件のコメント
Hacker Newsの意見