- 米国クラウドサービスで生じるデータ主権およびGDPR準拠の問題により、欧州クラウドへ移行する必要性が生じた
- AWSの利便性と統合サービスを全面的に手放す一方で、Hetznerなどの欧州ホスティングによって即時のコスト削減とデータの明確性を確保した
- インフラ運用の効率化のために、Ansibleベースの自動化と自社管理の監視システムを構築した
- 自前で構築することで、厳格なセキュリティ設計と透明な監査を容易にする構造を備えるようになった
- 90%のコスト削減と米国の監視リスク低減など、ビジネス面でも戦略的な利点を得た
AWSから欧州クラウド(Hetzner)への移行プロセスとISO 27001維持戦略
欧州CTOの悩み: AWSを離れる際の準拠性の問題
- 多くの技術リーダーが抱える代表的な悩みは、米国クラウドプロバイダーの限界に起因する
- AWSが提供する強力なISO 27001認証サービスには満足していたが、米国のCLOUD ActおよびFISAにより、欧州域内の顧客データが米国の管轄権にさらされる問題は避けられなかった
- 実際のサーバー所在地に関係なく、GDPR上の約束を守りにくい状況が発生した
- 年間$24,000に達するクラウド利用料が、実需要に比べて過大であると認識するようになった
- 会社の将来を1つの米国系事業者に依存する判断が、戦略的に危険であることを痛感した
Datapultの実例紹介
- Datapultはデンマークの人材管理ソフトウェア企業であり、従業員のシフト管理、残業手当の調整、勤怠データ管理など、金融レベルの信頼性が求められる
- AWSベースのワークフローに合わせて法的要件を満たしてきたが、オンプレミスまたは独立した代替サービスへの移行には追加の法的検討が必要になる
AWSを離れる際の懸念と実際に失う要素
- AWSの統合された利便性を手放すことには大きな心理的ハードルがある
- Lambda、One-click RDS、多様な内蔵コンプライアンスツールなど、手軽さと自動化を失うことになる
- マネージドサービスから離れることで、直接的な制御と責任の増加につながる
欧州クラウドの期待効果と現実的な利益
- 欧州のサービスプロバイダー(Hetzner、OVHcloud)への移行により、データ主権、GDPR、ISO 27001の観点で即時の利点を確保
- 真のデータレジデンシー証明を通じて、透明性のある顧客コミュニケーションと監査対応が可能
- 想定外のコスト削減(90%)と予算の透明性を達成
- AWSの利便性を手放す一方で、技術的には**より強力な自動化プロセス(Ansible構成)**とセキュリティ向上を実現した
- 従来に比べて自律性、革新性、検証可能なインフラを確保した
具体的な移行戦略と主要な教訓
- Ansibleを活用したコンプライアンス自動化
- すべてのサーバー構成をISO 27001 Annex Aの統制に直結させる形で、セルフドキュメンティングなインフラ管理を実現
- AWS代替の監視システム構築
- Prometheus、Grafana、Lokiの組み合わせにより、AWS CloudWatch水準のエンタープライズ監視と迅速なインシデント対応が可能
- セキュリティ設計強化のためのセキュリティ・バイ・デザインの実装
- マネージドセキュリティツールがない状況でも、Ansible自動化によってISMS(情報セキュリティマネジメントシステム)を強化し、開発者のコンプライアンス対応を容易にした
技術を超えた戦略的効果
- 米国の監視法によるコンプライアンスリスクを最小化
- 欧州ホスティングインフラを営業上の差別化ポイントとして活用し、信頼性とブランド価値を向上
- 削減したクラウド費用(90%)を本業へ再投資できる体制を整えた
移行戦略適用ガイドの提示
- 既存のAWSインフラから主権を確保できる欧州クラウドへの移行とISO 27001維持の経験をもとに、再現可能なガイドラインを提供できる
- CTOや創業者がAWSから欧州クラウドへの移行を検討する際、コスト分析、コンプライアンスリスク、移行スケジュールなどの個別相談を提供
- 1時間以内にコスト差、主要な法的リスク、移行初期段階を整理できる
1件のコメント
Hacker Newsのコメント
私たちはAWSの中核機能を自前で再実装することでコストを削減してきましたが、多くの人はDIY型ホスティングの本当のコスト、特に24時間対応のサポートのような部分を見落としています。こうした支援を社内で作って運用しようとすると、かえってかなりの費用がかかることがあります。年間24,000ドルというAWS利用料は、優秀なDevOpsフリーランサーの1〜2か月分、あるいは低賃金の開発者の0.33 FTE程度に相当しますが、この予算で24時間対応のサポートを期待するのは難しいです。もちろんこの選択が合理的な場合もありますが、実際にその分の開発時間や運用管理コストなど、すべてを率直に開示していない点は残念です。私も似たような選択肢を検討中ですが、コスト削減よりもドイツの顧客などのビジネス要件が理由です。ただし、より複雑になり、チームメンバーの増員も必要になるでしょう。CTOとして私の時間は限られており、こうした作業に自分で直接投入されるのは時間の使い方として最悪です。もっと会社と製品の成長に集中すべきだと思います。個人的には、この程度の小規模ならTerraformは過剰で、Ansibleのほうが向いているYAGNI(You Ain’t Gonna Need It)のケースだと感じます。
AWS、Azure、GCPのような大手クラウド事業者が実際に24/7のアプリケーションサポートをしてくれると誤解している人がいますが、実際はそうではありません。せいぜいインフラが「だいたい」ちゃんと動くというだけで、結局のところ、まともに使うには依然として専門家が必要で、コスト爆発や連携の問題を自分で点検しなければなりません。クラウドの実際の料金がTCO(総所有コスト)だという話は、完全に誤った神話です
AWSの機能を100%複製すると高くつくかもしれませんが、必要なのが80%だけなら話は変わります。また、AWSをセットアップし、継続的にスキルを磨き続けなければならない労力も無視できません。たとえばAWSダッシュボードの代わりにGrafanaなど、より良いツールを使える場合もあります。結局は要件の規模と多様性次第です。常に一番高いハンマーが正解とは限りません
削減額だけ見れば、元の24,000ドルの90%である21,600ドルを年間で節約する計算になります。しかしこの程度の予算では、ヨーロッパ基準のSRE/DevOpsエンジニアは雇えません。むしろ時間が経つほど、すべてのインフラを自前で管理しなければならず、長期的には総所有コストが上がると思います。それでも挑戦は応援します
米国政府がAmazonに対してアカウント停止を強制するリスクを考えるなら、AWSを使うこと自体が危険になり得ます。最近は米国と欧州(グリーンランド)との間で戦争の話まで出ている状況なので、なおさらそう思います
年24,000ドルという単純な計算方法はあまりにナイーブだと思います。AWS上でこれらのサービスを構築するのに何人必要なのか、本来48,000〜100,000ドルかかるものを24,000ドルに下げるにはどれだけの人員が必要なのか、といった具体的な人件費の見積もりが抜けていると感じます
Prometheus、Grafana、Lokiの組み合わせだけでも、AWSで得ていた監視レベルを自前で再現、あるいはむしろ上回れたと思います。こうしたツールがこれほど優れているのに、AWSの監視サービスは高価で遅く、UXも期待外れだという点にはいつも驚かされます。実際、監視コストこそがAWS体験の中で最も早く、そして不快に感じた部分でした
Hetznerの主な欠点は、悪意ある利用者によってIPが汚染される問題と、ハードウェア故障やアップグレード対応が必要なことです。こうした点が気にならなかったのか気になります。また、Lokiのメモリ使用量が急増する問題をどう解決しているのか、ほかに代替案はないのかも知りたいです
IP汚染の問題については、Cloudflare経由でユーザーアクセスをプロキシし、ファイアウォール(ufw)とCloudflare IPから許可された送信元だけが接続できるよう設定して、外部からの直接アクセス自体を遮断しています。ハードウェア障害やアップグレードについては、Terraformセットアップによって短時間で交換や容量拡張が可能です。Prometheusとnode exporterでハードウェアを監視して事前警告を受けており、9か月間障害はありません。アプリにはデータがほとんどなく、データベースは頻繁にリストアテストをしています。Lokiのメモリ問題は、保持ポリシーとインデックス分割、クエリ並列度とメモリ制限のチューニング、promtail式のラベル付けと構造化ロギングの導入、古い記録はオブジェクトストレージのバックアップやgrepで代替するといった複数の方法を組み合わせて解決しています
私たちが経験したLokiの問題は、default Helmなどのデプロイ設定が十分に最適化されていないことに起因していました。ブログで言及されているパフォーマンス改善のヒントどおりにインデックスを再設定し、読み取り専用インスタンスを追加し、そのほかの推奨事項も反映したところ、確かな性能向上を実感しました。オープンソースよりも自社クラウドサービスへ誘導したい意図があるので、最初は少し試行錯誤が必要だと思います
Lokiの代替としてはVictoriaを勧めます。はるかに高速で評判も良いですが、私たちはプロジェクトのメンテナ多様性を考慮してLokiを選びました。上で述べた方法で欠点を補っています
https://en.wikipedia.org/wiki/Sybil_attack のリンクを共有します。高価なクラウド事業者には、PoW(Proof of Work)的な形でIPレピュテーションを築ける利点があります
ISO 27001は国際的なセキュリティ管理標準で、欧州で人気のある指針です。米国ではほとんど適用されず、多くの欧州企業はこの違いをうまく受け入れられていないことがあります。米国内のセキュリティ標準の基本はSOC 2で、ISO 27001ほど厳格ではなく、米国市場によりなじんでいます
ISO 27001はもともとそれほど硬直的で厳しい基準ではなく、一般的にソフトウェアを使う際に行うべき基本事項を要求するものです。ただ、実際にそれを文書で証明するのが厄介で、SOC 2はそれに比べて文書作成の負担がかなり少ないです
SOC 2とISO 27001の両方を経験した立場から言うと、SOC 2の監査は実務上の統制よりも監査人の力量や直感に左右される面が大きく、その点が残念です。ISO 27001のほうがずっと明確で公平な監査だと感じます
ISO 27001認証を受けていない米国の大手クラウド企業を1社だけ挙げてほしいです
私もAzureで似たような構成を行い、90%削減できました。大企業は意図的に複雑なサービス抽象化の体験を押し付けていて、簡単な運用がますます難しくなっていると感じます
AWSにお金を払う理由の一つは運用負担が減ることにあり、実際AWSのマネージドDBを使うようになってからは、以前のようにmysqlクラスターのアップグレードにストレスを感じなくなりました。もちろん、こうした部分だけで高コストを正当化できるわけではありませんが、かなり大きな価値だと思います
数字が理解できません。年24,000ドルから90%削減して月200ドルなら、Hetznerサーバー1台分の価格にすぎません。その状況なら分散システムなしでシングルサーバーだけでもよさそうですが、実際の毎秒リクエスト数やユーザー数が気になります
ISO 27001準拠のためにはシングルサーバー運用はできず、ログおよび監視専用の別サーバーも必要です。負荷とは無関係に、必ず一定の複雑さが伴います。社員は毎日ログインするわけではなく、スケジューリングアプリの性質上、週に1〜2回だけ確認するケースもあります。DAUは1万〜2万、ピーク時同時接続は1,500〜2,000人、平均同時接続は50〜150人です。クラウド費用が高くなる理由は、リアルタイム機能や複雑な労働ルールなど、アプリ側のデータ処理負荷が大きいからです。たとえばシフト割り当てでは、ボーナス計算ルールまで含めてすべて異なり、スケジュール最適化も計算量が大きいです
2,400ドルではなく200ドルだと訂正します
ディスク暗号化をどうしているのか気になります。AWSでは自動ですが、一般的なホスティング事業者でうまく実装する方法を見たことがありません。暗号鍵をブートパーティションに保存したら無意味だという点も指摘しておきます
私はHetznerが本当に好きで、自分の検索エンジンもそこで動かしています。物理サーバーを使うのが最高だと思います
OVHやHetzner以外の欧州クラウドとして、UpCloudもおすすめしたいです。UpCloudはCPUコアがすべて実コアのようで、vCPU(スレッドベース)ではない点が利点です。ただし、公式な参照情報が少ないのは残念です。OVH、HetznerとHyperScaler(超大規模クラウド)を比較するのは簡単ではありませんが、Hetznerの場合は大半がコンシューマー向け部品で構成されているため違いがあります。UpCloudの紹介