ビッグデータは死んだ

xguru · 2023-02-13T11:07:01+09:00

私は誰で、なぜ関心を持つのか → BigQuery の初期エンジニア必須の導入スライド → みんなが参照する「時間が経つほどデータは爆発的に増える」グラフほとんどの人は、そこまで多くのデータを持っていないストレージとコンピューティングは分離されており、ストレージに偏りがあるワークロードの規模は、全体のデータ規模より小さいほとんどのデータは、ほとんどクエリされないビッグデータのフロンティアは、継続的に後退しているデータは責任（Liability） → ビッグデータのもう一つの定義は「データを保持するコストが、何を捨てるべきかを見極めるコストより低いとき」あなたはビッグデータの1パーセントに入っていますか？本当に莫大な量のデータを生成していますか？もしそうなら、本当に一度に莫大な量のデータを使う必要がありますか？もしそうなら、データが大きすぎて単一のシステムに収まりませんか？もしそうなら、あなたは単なるデータ収集家（Hoarder）ではないと確信できますか？もしそうなら、要約したほうがよくないですか？上のリストの質問に一つでも「ノー」と答えるなら、いつ持つことになるかも分からない「恐ろしい規模のビッグデータ」ではなく「実際に持っているデータ規模を扱えるようにしてくれる次世代データツール」を使ったほうがよいかもしれない

(motherduck.com)

20 ポイント投稿者 xguru 2023-02-13 | 1件のコメント | WhatsAppで共有

私は誰で、なぜ関心を持つのか → BigQuery の初期エンジニア
必須の導入スライド → みんなが参照する「時間が経つほどデータは爆発的に増える」グラフ
ほとんどの人は、そこまで多くのデータを持っていない
ストレージとコンピューティングは分離されており、ストレージに偏りがある
ワークロードの規模は、全体のデータ規模より小さい
ほとんどのデータは、ほとんどクエリされない
ビッグデータのフロンティアは、継続的に後退している
データは責任（Liability）
→ ビッグデータのもう一つの定義は「データを保持するコストが、何を捨てるべきかを見極めるコストより低いとき」
あなたはビッグデータの1パーセントに入っていますか？
- 本当に莫大な量のデータを生成していますか？
- もしそうなら、本当に一度に莫大な量のデータを使う必要がありますか？
- もしそうなら、データが大きすぎて単一のシステムに収まりませんか？
- もしそうなら、あなたは単なるデータ収集家（Hoarder）ではないと確信できますか？
- もしそうなら、要約したほうがよくないですか？
上のリストの質問に一つでも「ノー」と答えるなら、
いつ持つことになるかも分からない「恐ろしい規模のビッグデータ」ではなく
「実際に持っているデータ規模を扱えるようにしてくれる次世代データツール」を使ったほうがよいかもしれない

1件のコメント

xguru 2023-02-13

この記事を書いた会社は MotherDuck で、"DuckDB" を作っている会社だという点を踏まえて読む必要があります。
DuckDB - Embedded OLAP DB オープンソース

この会社のスローガンは "Big Data is DEAD. Long live EASY DATA." です。
"Your laptop is faster than your data warehouse. Why wait for the Cloud?" と、自社の組み込みDBを宣伝している会社です。

もちろん、だからといって記事が悪いわけではありません。全体として一度読んでみる価値があり、内容の多くにも同意します。
それほど多くもないデータで「ビッグデータ」をやっていると語る会社が多すぎるので。

ビッグデータは死んだ

関連記事

1件のコメント