9 ポイント 投稿者 xguru 2026-01-17 | まだコメントはありません。 | WhatsAppで共有
  • Apache ParquetフォーマットをC環境で直接サポートするために開発されたプロダクションレベルの純粋C実装ライブラリ
  • C11標準ベースで書かれており、C++ランタイムや例外処理なしで動作し、外部依存はzstdとzlibのみ
  • 組み込みシステム、IoT、マイクロコントローラ、レガシー環境など、制約のある環境でのデータ処理に適している
  • バイナリサイズは約200KBで、Apache Arrowと比べて50MB以上小さい軽量ビルド
  • SIMD最適化(SSE4.2、AVX2、AVX-512、NEON、SVE)およびランタイム自動検出機能により、さまざまなアーキテクチャをサポート
  • **すべての物理型(BOOLEAN、INT32、DOUBLEなど)**と、**多様なエンコーディングおよび圧縮コーデック(ZSTD、LZ4、SNAPPY、GZIP)**をサポート
  • Big-Endianシステム(s390x、SPARC、PowerPCなど)でも正しいバイト順処理をサポート
  • Nullableカラム、基本的なネストされたスキーマ、CRC32ページ検証、カラム統計、メモリマップドI/O、OpenMP並列読み取りなどのプロダクション機能を含む
  • ストリーミングAPIにより、大容量ファイルをメモリ全体にロードせず処理可能
  • PyArrowと完全互換で、Python環境との相互読み書きをサポート
  • Apache Arrowとの比較では
    • ARM環境で書き込み速度が1.5〜5倍高速で、読み取り速度も最大1.3倍向上
    • x86環境では読み取り速度はやや遅いがファイルサイズは約1.4倍小さい
    • 依存関係の最小化、ビルドの単純化、C専用環境との統合性が主な強み
    • 複雑なネスト型、暗号化、マルチスレッドZSTD展開には未対応
  • PyArrow、DuckDB、fastparquetとの相互テスト検証済み
  • Spark、DuckDBでもCarquetが生成したファイルを直接読み込み可能
  • Linux、macOS、Windows、POSIXシステムをサポート
  • MITライセンス

まだコメントはありません。

まだコメントはありません。