Tuplex - 並列ビッグデータ処理フレームワーク
(github.com)- Apache Spark / Dask に似た Python API を提供するが
→ Python インタープリタを呼び出さない
→ 与えられたパイプラインと入力データセットに最適化された LLVM バイトコードを生成
→ インタープリタ比で 5〜91x 高速
-
内部的にはデータ駆動コンパイルとデュアルモード処理を基盤としており、C++ で実装して最適化したパイプラインに近い速度を出す
-
macOS / Linux をサポート
-
SIGMOD '21 で発表された "Tuplex: Data Science in Python at Native Code Speed" 論文
まだコメントはありません。