Launch HN: Trellis – 非構造化データ向けのAIベースのワークフロー
(news.ycombinator.com)- Trellisは非構造化データ向けのAIベースのETL(Extract, Transform, Load)ツール
- ユーザーが自然言語で定義したスキーマに従って、電話通話、PDF、チャットの内容を構造化されたSQL形式に変換
- データチームやオペレーションチームが手作業のデータ入力を自動化し、複雑なデータをSQLクエリで処理できるよう支援
Trellis開発の背景
- Stanford AI研究所で出会った後、複数の大企業のデータチームと協業しながら、非構造化データの問題を発見
- 企業データの80%は非構造化データで構成されており、既存のプラットフォームでは処理が難しい
- 例えば、大手商業銀行はPDFやメールに閉じ込められた重要データのために、信用リスクモデルを改善できなかった
- AI研究を基に、非構造化データをスキーマに合ったテーブルへ変換するAIベースのETLソリューションを開発
技術的な課題
- 複雑な文書への対応: LLMベースのMapReduceを使って長文書を処理し、テーブルやレイアウト抽出にはビジョンモデルを使用
- モデルルーティング: 各変換に最適なモデルを選択し、コストと速度を最適化
- データ検証とスキーマ保証: 参照リンクと異常検知を通じて正確性を保証
多様なユースケース
- 金融サービス: 複雑な文書(債券、信用格付けなど)を構造化形式で処理し、アンダーライティングの速度を高め、融資処理を自動化
- カスタマーサポートおよびバックオフィス業務: 多様なスキーマとERPシステム間で文書をマッピングし、オンボーディング速度を向上させ、SOP順守を保証
- データ前処理およびデータ収集: ETLパイプラインでのデータ前処理とRAGデータ収集が必要
GN⁺のまとめ
- Trellisは非構造化データを構造化されたSQL形式に変換するAIベースのETLツールで、データチームやオペレーションチームの手作業を自動化
- 複雑な文書処理、モデルルーティング、データ検証といった技術的課題を解決
- 金融サービス、カスタマーサポート、データ前処理など、さまざまな業界で有用に活用できる
- 非構造化データの処理に苦労している企業に特に有用と思われる
- 類似機能を持つ他のプロジェクトとしては、Alteryx、Talendなどがある
1件のコメント
Hacker Newsの意見
オープンソースのPythonパッケージを開発中で、似た機能を提供している
主要な商業銀行では、PDFやメールに閉じ込められたデータを解決できず、信用リスクモデルを改善できなかった
SoundTraceで関連プロジェクトを進めていた
Instabaseで働いていたが、PDFと文書スキャンを処理する能力が重要だった
Trellisのローンチを祝福するが、エッジケースはほぼ0%に近くなければならない
Roe AIとの競合や違いについて質問している
データの正確性をどのように検証したのか気にしている
個人プロジェクトでTypeChat、Zod、Unstructuredを使って似た作業をしている
OpenAIの関数呼び出しを使って、何千ものスキャン文書からフィールドを抽出した
大きな問題をまだ解決していない状況でのローンチを祝福している