1 ポイント 投稿者 GN⁺ 2024-05-28 | 1件のコメント | WhatsAppで共有

ビッグデータは死んだ

私は誰で、なぜこの記事を書くのか?

  • 10年以上にわたり、ビッグデータの重要性を強調してきた
  • Google BigQueryの創設エンジニアとして、ビッグデータを扱う技術を広めてきた
  • 顧客との対話や製品分析を通じて、実際にはほとんどの人がビッグデータを扱っていないことに気づいた

お決まりの導入スライド

  • 多くのビッグデータ製品のプレゼンテーションは、「ビッグデータの時代が来る」というメッセージを伝えている
  • しかし実際には、ほとんどのアプリケーションは大規模データを処理する必要がない
  • 従来型のデータベースシステムが再び人気を集めている

ほとんどの人はそれほど多くのデータを持っていない

  • ほとんどの顧客は1TB以下のデータしか保有していない
  • 大規模なデータを持つ顧客でも、実際に使うのはその一部にすぎない
  • データサイズはパレートの法則に従い、ほとんどのデータは少数の顧客に集中している

ストレージとコンピューティングの分離におけるストレージ偏重

  • 現代のクラウドデータプラットフォームは、ストレージとコンピューティングを分離している
  • ストレージ容量は急速に増えているが、コンピューティングの必要性はそれほど変わらない
  • 大規模データセットを処理するために、分散処理が必要とは限らない

作業サイズは全体のデータサイズより小さい

  • ほとんどの分析作業は小さなデータセットを処理している
  • 大規模データを処理するクエリはまれで、主にレポート生成に使われる
  • データ処理コストを抑えるために、小さなクエリが好まれる

ほとんどのデータはほとんどクエリされない

  • ほとんどのデータは、生成されてから24時間以内にのみ頻繁にクエリされる
  • 古いデータはほとんどクエリされず、保存領域を占有するだけである

ビッグデータの境界は絶えず後退している

  • 「ビッグデータ」の定義は時間とともに変化している
  • 現代のハードウェアは、過去よりはるかに大きなデータを処理できる

データは責任である

  • データを保管するコストは、単なる保存コストを超える
  • 規制遵守と法的責任を考慮しなければならない
  • 古いデータは保守が難しい

あなたはビッグデータの1%に属するか?

  • ほとんどの人はビッグデータを扱う必要がない
  • データが本当に大きいのか、要約可能なのかなどを検討する必要がある

GN⁺の意見

  • データ管理の重要性: データの大きさよりも、データの品質と管理が重要である。不要なデータを削除し、重要なデータに集中することが効率的である。
  • 現実的なアプローチ: ほとんどの企業はビッグデータ技術を必要としていない。実際のデータ規模と必要性に合ったツールを選ぶことが重要である。
  • コスト削減: クラウド環境ではストレージとコンピューティングを分離することでコストを削減できる。不要なデータ処理を減らすことが経済的である。
  • 法的責任: データ保管には法的責任が伴う。規制遵守とデータセキュリティに注意する必要がある。
  • 技術の進歩: ハードウェアとソフトウェアの進歩により、過去には不可能だったデータ処理が可能になっている。最新技術を活用して効率を高めることができる。

1件のコメント

 
GN⁺ 2024-05-28
Hacker Newsのコメント
  • データサイエンティスト採用の経験: 6TiB のデータを扱うアーキテクチャについて尋ねた際、スマートフォンや安価な HDD で解決できることを理解していた応募者が最も印象的だった。

  • MongoDBとPostgreSQLの比較: MongoDB には PostgreSQL より優れている点はなく、ビッグデータ向けのソリューションでは主にカラム指向データベースや Map/Reduce、Cassandra などが使われる。

  • 成功のための計画: ほとんどの事業はユニコーン企業にはならないが、それを目標にすべきであり、初期段階からスケーラビリティを考慮したアーキテクチャが必要だ。

  • データサイズとクエリ頻度: ほとんどのデータはそれほど大きくなく、ほとんどのクエリも小規模である。初期段階ではデータを削減する作業が必要になる。

  • ビッグデータと規制コスト: データのコストは規制によって増加している。

  • ビッグデータ分析の経験: 大型ハドロン衝突型加速器での経験では、高速なローカルストレージの方がグローバルなスーパーコンピュータネットワークより優れていた。

  • ビッグデータの逆説: ハードウェア要件を誇示するために、基本的なソフトウェア最適化を避ける傾向があった。

  • データの情報量: データは指数関数的に増加するが、情報量はそうではない。金融ではデータの大部分が重複しており、次元削減が必要になる。

  • ビッグデータの定義: ビッグデータは単なる保存容量や処理速度の問題ではなく、データを統合して理解する認知能力の問題である。

  • ビッグデータツールの過剰設計: 多くの場合、データウェアハウスやデータレイクはギガバイトやテラバイト規模で十分であり、シンプルなアーキテクチャの方がより良い性能を提供する。

  • ビッグデータ流行の終焉: ビッグデータのブームは終わっており、これは流行に敏感な業界ではよくある結果だ。

  • ビッグデータと創業者のエゴ: ビッグデータの主な原動力は創業者のエゴであり、初期段階では SQLite DB 1つで十分だ。

  • ビッグデータの処理問題: ビッグデータは保存よりも処理の問題であり、ほとんどのクエリは直近のデータしか扱わない。もし全データを処理する方が簡単なら、なぜ大半の企業が依然として小さなデータだけをクエリしているのか疑問だ。