9 ポイント 投稿者 xguru 2023-03-25 | 1件のコメント | WhatsAppで共有
  • Yandexが公開した、分散ストレージ&プロセッシング向けのビッグデータプラットフォームのオープンソース
    • ユースケース:バッチ処理、アドホック分析、OLTP、機械学習、メタデータストレージ、ETLパイプライン
  • マルチテナントのエコシステム
  • 信頼性と安全性:SPOFなし。サーバー間レプリケーションを自動化。進行状況を失うことなく更新可能
  • スケーラビリティ
    • 最大100万CPUコアおよび数千GPUまで拡張可能
    • 1万以上のノードをサポート。サーバーの自動スケールアップ&ダウン
    • エクサバイト級データまで、さまざまな保存媒体をサポート
  • 豊富な機能
    • 広範なMapReduceモデル
    • 分散ACIDトランザクション
    • 多様なSDK(C++、Python、Java、Go)とAPIを提供
    • コンピューティングリソースおよびストレージの安全な分離
    • ユーザーフレンドリーなUI
  • CHYT powered by ClickHouse
    • なじみやすいSQL Dialectと同様の機能
    • 高速な分析クエリ
    • 人気のBIソリューションと連携(JDBC/ODBC)
  • SPYT powered by Apache Spark
    • ETLプロセスを作成するためのツール
    • さまざまな規模の複数の独立クラスターをサポート
    • 既存ソリューションからの容易な移行

1件のコメント

 
xguru 2023-03-25

オープンソース化そのものの経緯と、内部で使われている技術を紹介する記事: YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

  • 開発はほぼ10年以上にわたって進められてきたとのことです。
  • 2006年からMapReduceを使っていたが、2009年に限界に突き当たり、2010年からYTプロジェクトを開始
  • Cypress (Storage) + MapReduce + 動的K-Vテーブル + YQL + CHYT + SPYT
  • 主要なサーバーコードはC++