- 私は誰で、なぜ関心を持つのか → BigQuery の初期エンジニア
- 必須の導入スライド → みんなが参照する「時間が経つほどデータは爆発的に増える」グラフ
- ほとんどの人は、そこまで多くのデータを持っていない
- ストレージとコンピューティングは分離されており、ストレージに偏りがある
- ワークロードの規模は、全体のデータ規模より小さい
- ほとんどのデータは、ほとんどクエリされない
- ビッグデータのフロンティアは、継続的に後退している
- データは責任(Liability)
→ ビッグデータのもう一つの定義は「データを保持するコストが、何を捨てるべきかを見極めるコストより低いとき」
- あなたはビッグデータの1パーセントに入っていますか?
- 本当に莫大な量のデータを生成していますか?
- もしそうなら、本当に一度に莫大な量のデータを使う必要がありますか?
- もしそうなら、データが大きすぎて単一のシステムに収まりませんか?
- もしそうなら、あなたは単なるデータ収集家(Hoarder)ではないと確信できますか?
- もしそうなら、要約したほうがよくないですか?
- 上のリストの質問に一つでも「ノー」と答えるなら、
いつ持つことになるかも分からない「恐ろしい規模のビッグデータ」ではなく
「実際に持っているデータ規模を扱えるようにしてくれる次世代データツール」を使ったほうがよいかもしれない
1件のコメント
この記事を書いた会社は MotherDuck で、"DuckDB" を作っている会社だという点を踏まえて読む必要があります。
DuckDB - Embedded OLAP DB オープンソース
この会社のスローガンは "Big Data is DEAD. Long live EASY DATA." です。
"Your laptop is faster than your data warehouse. Why wait for the Cloud?" と、自社の組み込みDBを宣伝している会社です。
もちろん、だからといって記事が悪いわけではありません。全体として一度読んでみる価値があり、内容の多くにも同意します。
それほど多くもないデータで「ビッグデータ」をやっていると語る会社が多すぎるので。