20 ポイント 投稿者 xguru 2023-02-13 | 1件のコメント | WhatsAppで共有
  • 私は誰で、なぜ関心を持つのか → BigQuery の初期エンジニア
  • 必須の導入スライド → みんなが参照する「時間が経つほどデータは爆発的に増える」グラフ
  • ほとんどの人は、そこまで多くのデータを持っていない
  • ストレージとコンピューティングは分離されており、ストレージに偏りがある
  • ワークロードの規模は、全体のデータ規模より小さい
  • ほとんどのデータは、ほとんどクエリされない
  • ビッグデータのフロンティアは、継続的に後退している
  • データは責任(Liability)
    → ビッグデータのもう一つの定義は「データを保持するコストが、何を捨てるべきかを見極めるコストより低いとき」
  • あなたはビッグデータの1パーセントに入っていますか?
    • 本当に莫大な量のデータを生成していますか?
    • もしそうなら、本当に一度に莫大な量のデータを使う必要がありますか?
    • もしそうなら、データが大きすぎて単一のシステムに収まりませんか?
    • もしそうなら、あなたは単なるデータ収集家(Hoarder)ではないと確信できますか?
    • もしそうなら、要約したほうがよくないですか?
  • 上のリストの質問に一つでも「ノー」と答えるなら、
    いつ持つことになるかも分からない「恐ろしい規模のビッグデータ」ではなく
    実際に持っているデータ規模を扱えるようにしてくれる次世代データツール」を使ったほうがよいかもしれない

1件のコメント

 
xguru 2023-02-13

この記事を書いた会社は MotherDuck で、"DuckDB" を作っている会社だという点を踏まえて読む必要があります。
DuckDB - Embedded OLAP DB オープンソース

この会社のスローガンは "Big Data is DEAD. Long live EASY DATA." です。
"Your laptop is faster than your data warehouse. Why wait for the Cloud?" と、自社の組み込みDBを宣伝している会社です。

もちろん、だからといって記事が悪いわけではありません。全体として一度読んでみる価値があり、内容の多くにも同意します。
それほど多くもないデータで「ビッグデータ」をやっていると語る会社が多すぎるので。