22 ポイント 投稿者 xguru 2024-05-26 | 1件のコメント | WhatsAppで共有
  • 構造化データに対して自然言語でクエリ可能なNL-to-SQLエンジン
  • コードベース全体をオープンソース化 : コアエンジン、クライアント(認証/RBAC)などを含む
  • これで誰でも自分の製品内にtext-To-SQLソリューションを構築可能
  • DataheraldのCore NL-to-SQLエンジンはLLMベースのエージェントで、CoT(Chain of Thought)推論とさまざまなツールを使って、与えられたユーザープロンプトから高精度なSQLを生成
  • 合計4つのサービスを含む
    • エンジン : LLMエージェント、ベクトルストアおよびDBコネクタ
    • 管理者コンソール : エンジン設定およびObservability管理用のNextJSフロントエンド
    • エンタープライズバックエンド : コアエンジンをラップし、認証/キャッシュ/APIなどを追加
    • Slackボット : DataheraldをSlackワークフローに追加

1件のコメント

 
xguru 2024-05-26

Dataherald - 自然言語-to-SQL エンジン
8か月前に共有されていましたが、今回ついに全体がオープンソースとして公開されました。

Hacker Newsの意見

  • このツールは本当にすばらしく見える。ほかのツールは単純なクエリにはうまく動くが、複雑なスキーマや結合には苦労することがある。DataHeraldがこの問題を解決しているのか気になる。
  • 昨年、テキスト-to-SQL製品をオープンソースとして公開した。こうしたビジネスを構築するのは非常に難しい。オープンソース化し、SnowflakeやPowerBIのような無料配布ツールと連携するほうが理にかなっている。
  • なぜ製品全体をオープンソース化したのか気になる。オープンコアモデルへの移行中なのだろうか。理由を共有してもらえるとありがたい。
  • 歴史的な貢献に感謝する。多くの企業が今、データと「対話」している。多くのチームが似たような取り組みをしているのだろう。
  • 機能が豊富なAI分析アシスタントの1つだ。オープンソース化を称賛したい。Metabase、Airbyte、dbtのような成功例もある。
  • このツールの対象ユーザーが誰なのか気になる。Webサイトでは、アナリストを介さずにデータに関する質問へ答えられるとうたっているが、アナリストこそがモデルとデータの専門家だ。データウェアハウスにはさまざまな問題があり得る。LLMがそれを一貫して処理できるのか気になる。
  • このツールが平均的なLLMよりうまく動く理由は、データベース構造を使って学習できるからだ。しかしデータベース構造は頻繁に変わる可能性があり、再学習が必要になるかもしれない。PR修正後に自動で再学習されるのか気になる。
  • このツールが複雑な結合を扱えるのか気になる。Webサイトでは例を見つけられなかった。
  • NLP+ORMシステムを使うほうがなぜ優れているのか理解できない。固定された構文を使う必要はあるが、100%の正確性を得られる。
  • 最近、NL-to-SQLをプロトタイプとして試してみた。ミスや悪意のある行為者がデータベースに影響を与えるのをどう防ぐかが課題だった。この件に関連するほかの側面について話したいなら連絡してほしいとのこと。