ビッグデータは死んだ
私は誰で、なぜこの記事を書くのか?
- 10年以上にわたり、ビッグデータの重要性を強調してきた
- Google BigQueryの創設エンジニアとして、ビッグデータを扱う技術を広めてきた
- 顧客との対話や製品分析を通じて、実際にはほとんどの人がビッグデータを扱っていないことに気づいた
お決まりの導入スライド
- 多くのビッグデータ製品のプレゼンテーションは、「ビッグデータの時代が来る」というメッセージを伝えている
- しかし実際には、ほとんどのアプリケーションは大規模データを処理する必要がない
- 従来型のデータベースシステムが再び人気を集めている
ほとんどの人はそれほど多くのデータを持っていない
- ほとんどの顧客は1TB以下のデータしか保有していない
- 大規模なデータを持つ顧客でも、実際に使うのはその一部にすぎない
- データサイズはパレートの法則に従い、ほとんどのデータは少数の顧客に集中している
ストレージとコンピューティングの分離におけるストレージ偏重
- 現代のクラウドデータプラットフォームは、ストレージとコンピューティングを分離している
- ストレージ容量は急速に増えているが、コンピューティングの必要性はそれほど変わらない
- 大規模データセットを処理するために、分散処理が必要とは限らない
作業サイズは全体のデータサイズより小さい
- ほとんどの分析作業は小さなデータセットを処理している
- 大規模データを処理するクエリはまれで、主にレポート生成に使われる
- データ処理コストを抑えるために、小さなクエリが好まれる
ほとんどのデータはほとんどクエリされない
- ほとんどのデータは、生成されてから24時間以内にのみ頻繁にクエリされる
- 古いデータはほとんどクエリされず、保存領域を占有するだけである
ビッグデータの境界は絶えず後退している
- 「ビッグデータ」の定義は時間とともに変化している
- 現代のハードウェアは、過去よりはるかに大きなデータを処理できる
データは責任である
- データを保管するコストは、単なる保存コストを超える
- 規制遵守と法的責任を考慮しなければならない
- 古いデータは保守が難しい
あなたはビッグデータの1%に属するか?
- ほとんどの人はビッグデータを扱う必要がない
- データが本当に大きいのか、要約可能なのかなどを検討する必要がある
GN⁺の意見
- データ管理の重要性: データの大きさよりも、データの品質と管理が重要である。不要なデータを削除し、重要なデータに集中することが効率的である。
- 現実的なアプローチ: ほとんどの企業はビッグデータ技術を必要としていない。実際のデータ規模と必要性に合ったツールを選ぶことが重要である。
- コスト削減: クラウド環境ではストレージとコンピューティングを分離することでコストを削減できる。不要なデータ処理を減らすことが経済的である。
- 法的責任: データ保管には法的責任が伴う。規制遵守とデータセキュリティに注意する必要がある。
- 技術の進歩: ハードウェアとソフトウェアの進歩により、過去には不可能だったデータ処理が可能になっている。最新技術を活用して効率を高めることができる。
1件のコメント
Hacker Newsのコメント
データサイエンティスト採用の経験: 6TiB のデータを扱うアーキテクチャについて尋ねた際、スマートフォンや安価な HDD で解決できることを理解していた応募者が最も印象的だった。
MongoDBとPostgreSQLの比較: MongoDB には PostgreSQL より優れている点はなく、ビッグデータ向けのソリューションでは主にカラム指向データベースや Map/Reduce、Cassandra などが使われる。
成功のための計画: ほとんどの事業はユニコーン企業にはならないが、それを目標にすべきであり、初期段階からスケーラビリティを考慮したアーキテクチャが必要だ。
データサイズとクエリ頻度: ほとんどのデータはそれほど大きくなく、ほとんどのクエリも小規模である。初期段階ではデータを削減する作業が必要になる。
ビッグデータと規制コスト: データのコストは規制によって増加している。
ビッグデータ分析の経験: 大型ハドロン衝突型加速器での経験では、高速なローカルストレージの方がグローバルなスーパーコンピュータネットワークより優れていた。
ビッグデータの逆説: ハードウェア要件を誇示するために、基本的なソフトウェア最適化を避ける傾向があった。
データの情報量: データは指数関数的に増加するが、情報量はそうではない。金融ではデータの大部分が重複しており、次元削減が必要になる。
ビッグデータの定義: ビッグデータは単なる保存容量や処理速度の問題ではなく、データを統合して理解する認知能力の問題である。
ビッグデータツールの過剰設計: 多くの場合、データウェアハウスやデータレイクはギガバイトやテラバイト規模で十分であり、シンプルなアーキテクチャの方がより良い性能を提供する。
ビッグデータ流行の終焉: ビッグデータのブームは終わっており、これは流行に敏感な業界ではよくある結果だ。
ビッグデータと創業者のエゴ: ビッグデータの主な原動力は創業者のエゴであり、初期段階では SQLite DB 1つで十分だ。
ビッグデータの処理問題: ビッグデータは保存よりも処理の問題であり、ほとんどのクエリは直近のデータしか扱わない。もし全データを処理する方が簡単なら、なぜ大半の企業が依然として小さなデータだけをクエリしているのか疑問だ。