Hyperspace - MSが公開したApache Spark向けインデックス・サブシステムのオープンソース
(microsoft.github.io)Apache Sparkでインデックスベースのクエリ高速化を可能にするサブシステム
→ CSV、JSON、Parquetデータにインデックスを作成・管理
→ このインデックスを自動的に使用し、コードの変更なしでクエリ/ワークロードを高速化
- TPCベンチマークでは個別クエリで最大11倍までクエリ速度が向上
→ 全体的には一般的なハードウェア使用時に約2倍程度クエリ性能を高速化
-
create、refresh、delete、restore、vacuum、cancel のようなシンプルなAPI
-
Scala、Python、.NETをサポート
Microsoft AzureクラウドのAzure Synapse Analyticsで使用されている
(エンタープライズ・データウェアハウジングとビッグデータ分析を組み合わせた無制限の分析サービス)
1件のコメント
紹介文: Hyperspace, an indexing subsystem for Apache Spark™ がオープンソースになりました
https://cloudblogs.microsoft.com/opensource/2020/…