- AIのために設計された最新のPythonデータフレームライブラリ
- 非構造化データをデータセットとして構成し、ローカルマシン上で大規模にWrangleできるように設計
- AIモデルやAPI呼び出しを抽象化したり隠したりせず、ポストモダンデータスタックに統合
主な特徴
- Source of Truthリポジトリ
- S3、GCP、Azure、およびローカルファイルシステム上の非構造化データを、重複コピーなしで処理
- マルチモーダルデータをサポート: 画像、動画、テキスト、PDF、JSON、CSV、parquet など
- ファイルとメタデータを、永続的でバージョン管理され、カラム指向のデータセットとして統合
- Pythonフレンドリーなデータパイプライン
- Pythonオブジェクトとオブジェクトフィールドに対して処理を実行
- SQLやSparkなしで、組み込みの並列化とアウトオブコア処理機能を提供
- データ強化(Enrichment)と処理
- ローカルAIモデルとLLM APIを使ってメタデータを生成
- メタデータに基づくフィルタリング、結合、グループ化。ベクトル埋め込みで検索
- データセットをPytorchやTensorflowに渡すか、再びリポジトリへエクスポート
- 効率性
- 並列化、アウトオブコア処理、データキャッシュ
- Pythonオブジェクトフィールドに対するベクトル化演算: 合計、件数、平均 など
- 最適化されたベクトル検索
まだコメントはありません。