8 ポイント 投稿者 xguru 2020-07-20 | 1件のコメント | WhatsAppで共有

Apache Sparkでインデックスベースのクエリ高速化を可能にするサブシステム

→ CSV、JSON、Parquetデータにインデックスを作成・管理

→ このインデックスを自動的に使用し、コードの変更なしでクエリ/ワークロードを高速化

  • TPCベンチマークでは個別クエリで最大11倍までクエリ速度が向上

→ 全体的には一般的なハードウェア使用時に約2倍程度クエリ性能を高速化

  • create、refresh、delete、restore、vacuum、cancel のようなシンプルなAPI

  • Scala、Python、.NETをサポート

Microsoft AzureクラウドのAzure Synapse Analyticsで使用されている

(エンタープライズ・データウェアハウジングとビッグデータ分析を組み合わせた無制限の分析サービス)

1件のコメント

 
xguru 2020-07-20

紹介文: Hyperspace, an indexing subsystem for Apache Spark™ がオープンソースになりました

https://cloudblogs.microsoft.com/opensource/2020/…