Databases in 2024:1年を振り返る
(cs.cmu.edu)Andy Pavlo(CMU教授)による2024年のデータベース業界全体レビュー
私のデータベースは、私の望む形でライセンスする!
- データベースとオープンソースのジレンマ:
- オープンソースDBMSは、しばしばVCに支援された収益性の高い企業によって開発される。
- クラウド事業者が人気のDBMSをサービスとして提供し、開発企業よりも大きな収益を上げる問題が発生。
- MongoDBは2018年にSSPL(Server Side Public License)へ移行し、この問題の解決を図った。
- Redisのライセンス変更:
- Redis Ltd.は2024年のIPO準備にあたり、BSD-3ライセンスからSSPLおよび独自のRedis Source Available Licenseへ移行。
- 2024年3月、RocksDBのフォークであるSpeedbを買収し、ライセンス変更を発表。
- コミュニティの反発:
- 同じ週にValkeyとRedictというフォークプロジェクトが発表された。
- ValkeyはAmazonで始まり、Google、Oracleなどが参加してLinux Foundationに統合。
- Redis創始者の復帰可能性:
- 2024年12月、Redis創始者がRedis Ltd.と協力し、コミュニティの再統合を模索すると発表。
- Elasticsearchのライセンス回帰:
- Elastic N.V.は2021年にSSPLおよびElastic Licenseへ移行後、Amazonと対立。
- AmazonはOpenSearchのフォークで対抗。
- 2024年8月、Elastic N.V.はAGPLへ再移行し、Kendrick Lamarの曲に言及。
- 2024年9月、AmazonはOpenSearchプロジェクトをLinux Foundationへ移管。
- Andyの見解:
- Redisへの批判:
- 性能が低く、見せかけのトランザクションや非効率なクエリ言語の問題を指摘。
- 代替手段の多いRedisは、コミュニティの反発に耐えにくい状況。
- Elasticsearchと似たパターン:
- ライセンス変更 → フォークプロジェクト登場 → オープンソースライセンスへの回帰。
- RedisとElasticsearchがより大きな反発を受ける理由:
- Redisは創業者たちが原作者ではなく、外部コントリビューターの多いシステムであるため、「正統性不足」をめぐる議論がある。
- これは2023年のHashiCorpによるTerraformライセンス変更と似た反応。
- クラウド事業者の影響力:
- クラウド事業者は、オープンソースDBMSのプロトコルを既存DBMSへ統合したり、自社サービスを通じてISVの収益基盤を弱体化させたりしている。
- 例: AWSはTimestream DBMSにInfluxDB v2プロトコルを追加し、Redis互換サービスより30%安いValkey互換サービスを発表。
- Redisへの批判:
- 追加アップデート:
- AWSがInflux Dataと協力し、InfluxDB v2 DBMSのマネージドサービスを提供。
- ScyllaDBが2024年12月にオープンソースAGPL版を終了し、エンタープライズ版を「ソース公開」へ移行。
DatabricksとSnowflakeの終わらない競争
- 公開LLM競争:
- Databricks:
- 2024年3月、DBRXオープンソースLLMを発表。
- 1320億パラメータで、2023年に13億ドルで買収したMosaicチームが開発。
- モデル開発に1,000万ドルを投資。
- Snowflake:
- 2024年4月、ArcticオープンソースLLMを発表。
- 4800億パラメータで、SQL生成のような「エンタープライズ」作業ではDBRXより優れていると主張。
- モデル開発に200万ドルを投資。
- Snowflakeの発表は、他のLLMよりもDBRXとの比較に焦点を当て、競争構図を明確に示した。
- Databricks:
- メタデータカタログ戦争:
- HiveのHCatalogは2010年代のデータレイク標準として定着。
- NetflixのIcebergとUberのHudiが2010年代後半に登場し、Apacheプロジェクトへ成長。
- Databricks:
- DeltaLakeプラットフォームとUnityという独自カタログサービスを提供。
- 2024年6月、Snowflake CEOがPolarisカタログサービスを発表したその日に、Iceberg支援企業Tabularを20億ドルで買収。
- 翌週、Unityカタログのオープンソース化を発表。
- Snowflake:
- 2022年にIceberg対応を発表して以降、段階的に拡張。
- Tabular買収交渉中にDatabricksに先を越された。
- Andyの見解:
- 伝統的な競争との違い:
- 過去のOracleとInformixの性能競争とは異なり、SnowflakeとDatabricksの争いはエコシステムとデータ管理ツールに焦点がある。
- ベクトル化実行エンジンは、今や基本技術と見なされている。
- 現在重要なのは、使いやすさ、ツール互換性、AI/LLM統合といった付加的品質。
- 消費者に有益:
- 激しい競争は、より良い製品と技術を意味する。
- SnowflakeのPolarisはApacheプロジェクトへ移行し、より良い技術へのアクセス性を提供。
- 結果として、技術進歩と価格低下が期待される。
- 肯定的な比較:
- OracleとSalesforceのCEOによる単なる意地の張り合いとは違い、SnowflakeとDatabricksの争いは実質的な革新と競争力強化につながっている。
- 伝統的な競争との違い:
DuckDBをあらゆる場所に統合しようとする動き
- DuckDBの成長:
- DuckDBは、データ分析クエリにおける新たなデフォルトの選択肢として定着。
- 以前はPandasがこの役割を果たしていたが、DuckDBは優れた可搬性と性能でその座を奪った。
- 複数のDBMSが、OLAPワークロード対応強化のためDuckDBを統合しようとする動きが増加。
- 2024年には、PostgresとDuckDBを統合する4つの新しい拡張が発表された。
- Postgres-DuckDB拡張の発表:
- 2024年5月 - Crunchy Data:
- PostgresからOLAPクエリをDuckDBへルーティングする独自ブリッジを発表。
- DuckDBの地理空間分析機能を活用し、PostGISクエリを高速化する拡張も追加。
- 2024年6月 - ParadeDB:
- オープンソース拡張pg_analyticsを発表。
- 以前はDataFusionベースのpg_lakehouseを使用していたが、DuckDBへ移行。
- 2024年8月 - pg_duck:
- DuckDB Labs GitHubで公式サポートされるDuckDB拡張。
- MotherDuck、Hydra、Microsoft、Neonの協業として始まったが、MicrosoftとNeonは開発の主導権争いによりプロジェクトから外れた。
- 現在はMotherDuckとHydraが共同で保守。
- 2024年11月 - pg_mooncake:
- Postgres経由でIcebergテーブルにデータを書き込み、トランザクションをサポートする拡張を発表。
- 2024年5月 - Crunchy Data:
- Andyの見解:
- DuckDBの利点:
- ほとんどのOLAPクエリは100MB未満のデータをスキャンし、DuckDBは単一インスタンスでそれを十分に処理可能。
- 優れた可搬性と利便性により、Postgresコミュニティで急速に広がっている。
- IcebergやS3データアクセスを含む多様なデータエコシステムを、単一の拡張で統合。
- 高性能分析を提供しつつ、高価なデータウェアハウスを置き換えられる可能性がある。
- Postgresの拡張性:
- Postgresは1980年代の設計当初から、拡張性と柔軟性を目標としていた。
- Postgresの「hook」API(2006年導入)によって、最も広範で多様な拡張エコシステムが構築された。
- ただし、拡張同士の干渉や誤動作を招くリスクも存在する。
- DuckDBのPostgres統合:
- 既存のPostgres拡張(Citus、Timescale)はカラム型ストレージのみを提供し、問題を部分的にしか解決できなかった。
- DuckDBはカラム型ストレージとベクトル化クエリ処理の両方を提供する。
- 比喩的な言及:
- 「Postgresの象とDuckDBを使ったturduckenジョーク」の可能性に触れたが、大学の処分を避けるため省略。
- DuckDBの利点:
Random Happenings in the Database World
主なリリース:
- Amazon Aurora DSQL:
- AWSが新しい「Spanner-like」DBMSを発表。
- 分散ログサービスとタイムスタンプ順序付け(Time Sync)ベース。
- Auroraという名前を使っているが、既存のAurora Postgres RDSとはコードを共有していない。
- CedarDB:
- Umbraのコードをフォークした商用DBMS。
- Umbra創始者のThomas Neumannは引き続き研究に注力し、Clickbenchリーダーボード最上位を維持。
- Google Bigtable:
- NoSQLの先駆けであるBigtableが、2024年にSQL対応を追加。
- Limbo:
- TursoがSQLiteをRustで完全に書き直したプロジェクトを発表。
- SQLiteの強みはコードそのものだけでなく、あらゆる環境で正確に動作することを保証するテストエンジニアリングにもある。
- FoundationDBの元エンジニアたちと協力し、決定的テストを導入。
- Microsoft Garnet:
- Redis互換のキー・バリューストアで、FASTERの後継。
- クエリ並列性、メモリ超過DB対応、本物のトランザクション機能を提供。
- MySQL v9:
- 6年ぶりにリリースされた新バージョン。
- データベースに8,000以上のテーブルがあるとクラッシュする問題が発生。
- 主要機能が不足しており、OracleはMySQL Heatwaveサービスにより注力している。
- Prometheus v3:
- 7年ぶりのメジャーアップデート。
- 代替可能な選択肢が多く、OG Prometheusの活用度は低下。
主な買収:
- Alteryx → Private Equity: 利用者が少なく、特にコメントなし。
- MariaDB → Private Equity: 運営上の問題解決に期待。
- OrioleDB → Supabase: Postgresの古いストレージアーキテクチャを改善。
- PeerDB → ClickHouse: PostgresデータをClickHouseへETL転送するツール。
- PopSQL → Timescale: 高度なSQLエディタUIを買収。
- Speedb → Redis Ltd.: RocksDBフォークで、データのディスク保存機能追加の可能性。
- Rockset → OpenAI: DBaaSサービス終了、2024年9月。
- Tabular → Databricks: Icebergエコシステム強化のために買収。
- Verta.ai → Cloudera: Clouderaはまだ生き残っている。
- Warpstream → Confluent: Kafkaをgolangで再実装し、S3と統合。
主な投資:
- Databricks: 10億ドルのシリーズJ。
- DBOS: 850万ドルのシードラウンド。
- LanceDB: 800万ドルのシードラウンド。
- SDF: 900万ドルのシードラウンド。
- SpiceDB: 1,200万ドルのシリーズA。
- TigerBeetle: 2,400万ドルのシリーズA。
主な終焉:
- Amazon QLDB: Amazonでさえ収益化に失敗。
- OtterTune: 10年にわたる研究とスタートアップの歩みが終了。特定企業との問題により、CMU-DBの学生採用が禁止。
Andyの見解:
- Databricksの大規模資金調達:
- 2024年の10億ドルシリーズJで、データベース業界の過去最高資金調達記録を更新。
- 資金は従業員持株の買い取りに使われ、IPO遅延に対する従業員の不満を解消。
- DatabricksのIPO後は、複数のデータベーススタートアップもIPOを準備する可能性。
- 来年の見通し:
- 金利低下により、大規模資金を調達した企業(CockroachDB、Starburst、Implyなど)に追加資金調達の機会が生まれる可能性。
- dbtLabsはすでに成功裏に定着したと評価。
止まらないラリー・エリソン:2024年の驚くべき動き
- 2024年のラリー・エリソンの主な実績:
- 80歳の誕生日を迎えてなお、大胆な動きを続けている。
- Oracle株の上昇により、世界第3位の富豪に浮上。
- 2024年3月、Oracle株急騰で1日で150億ドルを稼いだ。
- 7月、息子(3人目の妻との子)への贈り物として60億ドルでパラマウント・スタジオを購入。
- パームビーチのリゾートを2億7,700万ドルで取得し、さらに高級資産を追加。
- ミシガン大学フットボールチーム支援:
- 2024年11月、ミシガン大学フットボール支援キャンペーンに1,200万ドルを寄付。
- この寄付は、LSUからミシガンへ移籍したトップクォーターバックの獲得に決定的な役割を果たした。
- 大学のプレスリリースでは「ラリーと彼の妻ジョリン」の功績に言及。
- 大学卒業歴のないラリーが、ミシガン大学と初めて大きな関わりを持った出来事。
- 2024年11月、ミシガン大学フットボール支援キャンペーンに1,200万ドルを寄付。
- 「ジョリン」の正体:
- 報道により、ラリーの新しい妻がジョリン(Curran)Zhuであることが判明。
- ラリーがテニス観戦する姿が目撃され、ジョリンはミシガンの帽子をかぶっていた。
- 2週間後、結婚のニュースが朝5時のニュースで伝えられ、彼女の正体が確認された。
- 報道により、ラリーの新しい妻がジョリン(Curran)Zhuであることが判明。
- アンディの視点:
- ラリーによるミシガン大学支援には特別な意味がある。
- アンディの元CMU-DB学生が、現在ミシガン大学データベースグループの教授として活動している。
- ラリーの新たな愛と結婚を祝福し、現代社会で愛を見つける難しさを強調。
- 過去に離婚を経験しながらも再び愛を見つけたラリーの回復力と前向きな姿勢を高く評価。
- ラリーによるミシガン大学支援には特別な意味がある。
- ラリーの6度目の結婚:
- メラニー・クラフト(2010年離婚)とニキータ・カーン(2020年離婚)に続き、再び結婚して人々を驚かせた。
- ジョリン・Zhuとの結婚により、幸福を追い求める彼の意志が改めて示された。
結論
- 新年の計画と現在の状況:
- 3年ぶりに初めて健康な状態で新年を迎えるつもりだったが、娘からCOVIDをうつされ、病床で新年を迎えた。
- 2024年9月のブースター接種とPaxlovid治療のおかげで、大きな問題なく回復中。
- OtterTuneの終了:
- OtterTuneプロジェクトが終了したことを残念に思っている。
- 多くの素晴らしい人々と協力し、大きな学びを得た。
- Intel CapitalとRace Capitalが最後まで支援してくれたことに感謝。
- 新しいスタートアップを構想中(ヒント: 今回もデータベース関連)。
- CMUでの新たなスタート:
- カーネギーメロン大学(CMU)に戻り、フルタイムの研究活動を再開。
- Jignesh Patelとともに興味深い研究プロジェクトを準備中。
- 今学期、新しいクエリ最適化講義を開設予定。
- 2024年9月にWikipediaが本人に関する記事を削除したため、研究論文の被引用数を増やす方法を模索中。
- DJ Mooshooへの支持:
- Cook Countyに収監されているDJ Mooshooを今も支持。
- 2025年の釈放を願って待っている。
- ByteBaseへの言及:
- ByteBaseの2024年データベースツールレビュー記事(Database Tools in 2024: A Year in Review)に感謝。
- 以前は、自身の年末データベース記事を中国語に翻訳する際に許可を求めてきたが、今年は待たずに似たテーマとタイトルで独自記事を書いた。
3件のコメント
素晴らしい記事をありがとうございます
2023年分は抜けていましたね。そのときはOtterTuneのリンクでしたが、終了してしまったので、今は個人ブログへ移してあります。
2022年のデータベースレビュー
2021年のデータベースレビュー
Hacker Newsの意見
Andyの動画ではRedisコマンドAPIに対する批判が弱い、という意見がある。Redis APIは批判できるが、もっと強い論拠が必要だという主張。Redisの使い方と利点を理解すべきだと強調している
Greenplumのコードがクローズド化された際、元の開発者たちがCloudberryというオープンソースのフォークを作り、これはApacheプロジェクトに受け入れられた。CloudberryはPostgres 14と同期しているが、GreenplumはいまだにPostgres 12にとどまっている
Redisに対する個人的な批判もある。Redisは遅く、見せかけのトランザクションがあり、クエリ構文が複雑だと主張している。CMUではDragonflyのほうがより高い性能を示したとも言及している
DuckDBは素晴らしいツールだという意見がある。DuckDBの創設者がCMUで、データサイエンティストがRDBMSを使わない理由を説明した講演が印象的だったという
SQL ServerとAzureの派生版が言及されていないのは奇妙だという意見がある。特定分野では支配的で、DBEnginesでは3番目に人気があると評価されている
ElasticとRedisへの不満がMongoDBと異なるのは、ライセンスとコントリビューターコミュニティの規模のためだという意見がある。AGPLのような制限的ライセンスは組み込み利用を難しくし、コントリビューターコミュニティがなければフォークも難しい
MongoDB、Neo4j、Kafka、CockroachDBのライセンス変更に対してフォークの試みがなかったのは、人々がこれらのプロジェクトをそれほど気にしていなかったからだという意見がある
Amazonはデータベースをサービスとして提供できるが、多くの人はAWSのマネージドサービスを望んでいない、という意見がある。k8sベースのソリューションを好むチームが多く、主流のOSS実装へ移行する傾向があるという
Alteryxを使った人に会ったことがない、という意見に対して、Alteryxはほとんどコード不要のグラフィカルなELT+Analyticsツールで、互換性が高く、他のデータベースやファイルと一緒に使えると説明している
1,200万ドルを調達したデータベーススタートアップが3年で失敗したというニュースに驚きを示している。これはデータベーススタートアップの成功がいかに難しいかを示す事例だと述べている。AIを活用したDB性能改善のアイデアがあったにもかかわらず、さらなる投資家を見つけられなかった点が不思議だとしている