11 ポイント 投稿者 xguru 2025-12-30 | まだコメントはありません。 | WhatsAppで共有
  • 最新ハードウェア(SIMD・GPU)を前提に設計されたオープンソースのカラム指向ファイルフォーマット
  • 分析・AIワークロードにおける高スループット・低レイテンシなデータアクセスを目標とする
  • Parquet比で約40%高い圧縮率最大40倍高速なデコード速度を達成
  • データ依存性を最小化したLaneベースのレイアウトを導入し、各単位を独立してデコード可能
    • SIMD・マルチコアCPU・GPUで極端なデータ並列性を確保
  • 明示的なSIMDコードなしでも自動ベクトル化がうまく機能するよう設計
    • CPU・GPUキャッシュ特性を考慮した小規模バッチ単位のアクセス方式を採用
  • 圧縮を完全に解かずに処理する部分展開(partial decompression)をサポートし、データエンジンが圧縮状態のままクエリを実行可能
  • **複数カラム圧縮(Multi-Column Compression, MCC)**によりカラム間の相関関係を活用
    • 従来のカラムストレージフォーマットにおける単一カラムの限界を補う式ベースのエンコーディング機構を提供
  • 外部ライブラリに依存しないZero-dependency構造によりビルドを簡素化
    • C++、Python、Rustなど主要言語のバインディングを提供
  • CSV ↔ FastLanes変換APIを内蔵
    • read_csv() / to_fls()で簡単に変換
    • read_fls() / to_csv()で逆変換をサポート
  • GPUデコード、Apache Arrow・DuckDB連携など次世代データスタックとの統合を目指して開発中

まだコメントはありません。

まだコメントはありません。