Koheesio - Nikeのデータパイプライン構築向けフレームワークをオープンソース化

xguru · 2024-06-05T09:37:10+09:00

効率的なデータパイプラインを構築するためのPythonフレームワークモジュール化とコラボレーションを促進し、シンプルで再利用可能なコンポーネントによって複雑なパイプラインを作れるようにする複数のデータ処理ライブラリやフレームワークとシームレスに連携できるよう設計されている Pydanticを使用し、強力な型チェック、データ検証、設定管理を提供する十分にテストされたコードと豊富な機能セットにより、予測可能なパイプライン実行を保証する Koheesioと他ライブラリの違いデータパイプライン、PySpark統合、データ変換、ETL処理、データ検証、および大規模データ処理に特化した設計あらゆる種類のデータ処理タスク向けにReader、Writer、Transformation機能を提供データエンジニアリングコミュニティ内でのコラボレーションとイノベーションを促進する Koheesioの中核コンポーネント Step: Koheesioの基本作業単位で、データパイプラインにおける単一のタスクを表す。入力を受け取り、出力を生成する Context: タスクの環境を設定する構成クラス。タスク間で変数を共有し、環境に応じてタスクの動作を調整できる Logger: さまざまなレベルでメッセージを記録するクラス

(github.com/Nike-Inc)

9 ポイント投稿者 xguru 2024-06-05 | 1件のコメント | WhatsAppで共有

効率的なデータパイプラインを構築するためのPythonフレームワーク
モジュール化とコラボレーションを促進し、シンプルで再利用可能なコンポーネントによって複雑なパイプラインを作れるようにする
複数のデータ処理ライブラリやフレームワークとシームレスに連携できるよう設計されている
Pydanticを使用し、強力な型チェック、データ検証、設定管理を提供する
十分にテストされたコードと豊富な機能セットにより、予測可能なパイプライン実行を保証する

Koheesioと他ライブラリの違い

データパイプライン、PySpark統合、データ変換、ETL処理、データ検証、および大規模データ処理に特化した設計
あらゆる種類のデータ処理タスク向けにReader、Writer、Transformation機能を提供
データエンジニアリングコミュニティ内でのコラボレーションとイノベーションを促進する

Koheesioの中核コンポーネント

Step: Koheesioの基本作業単位で、データパイプラインにおける単一のタスクを表す。入力を受け取り、出力を生成する
Context: タスクの環境を設定する構成クラス。タスク間で変数を共有し、環境に応じてタスクの動作を調整できる
Logger: さまざまなレベルでメッセージを記録するクラス

1件のコメント

xguru 2024-06-06

Hacker Newsのコメント

Nikeのデータエンジニアリングが実際にはどのようなものなのか気になる。LinkedInのプロフィールが原因で、低賃金の契約職の提案がよく届く。これらの役割は米国内で経験のある人を対象にしているが、報酬が低い。これらの役割は詐欺の可能性もある。
このツールは、経験の浅い開発者が多い環境では役立つかもしれない。2〜3人の開発者がツールを作り、より大きなチームが単純なETL作業を行う。ツールチームには、新しい要件に対応しなければならない負担がある。
強い型付けはデータエンジニアリングの問題にとって妨げになる。動的言語はコードの複雑さや保守負担を減らすのに役立つ。型フレームワークに固執するのは、業界経験というより学術的経験に基づいている。
ETL、Spark、Stormなどを扱ってきたが、このライブラリの価値提案が理解できない。データエンジニアリングの専門家ではないが、このツールの有用性には期待していた。
このツールが何なのか、なぜ使うべきなのかについて、より良い説明が必要だ。リンクを参照。
数週間前にApache Beamを使ってデータパイプラインを書いた。Koheesioはいくつかの機能を共有しているが、Apache Beamのほうが優れている。
Luigiに似ている。よい！
CloudQueryを確認してみることを勧める。ArrowベースのELTフレームワークだ。（作者本人）
Koheesioは他のライブラリとは競合しないと言っているが、実際には競合している。ワークフローオーケストレーションは成熟したカテゴリだ。Pythonを使っていることは大きな利点ではない。
dltライブラリを見たことがあるのか気になる。Pythonで使いやすいELを提供している。Koheesioとdltの違い、および相互補完の可能性が気になる。