6 ポイント 投稿者 GN⁺ 2024-08-15 | 1件のコメント | WhatsAppで共有
  • Trellisは非構造化データ向けのAIベースのETL(Extract, Transform, Load)ツール
  • ユーザーが自然言語で定義したスキーマに従って、電話通話、PDF、チャットの内容を構造化されたSQL形式に変換
  • データチームやオペレーションチームが手作業のデータ入力を自動化し、複雑なデータをSQLクエリで処理できるよう支援

Trellis開発の背景

  • Stanford AI研究所で出会った後、複数の大企業のデータチームと協業しながら、非構造化データの問題を発見
  • 企業データの80%は非構造化データで構成されており、既存のプラットフォームでは処理が難しい
  • 例えば、大手商業銀行はPDFやメールに閉じ込められた重要データのために、信用リスクモデルを改善できなかった
  • AI研究を基に、非構造化データをスキーマに合ったテーブルへ変換するAIベースのETLソリューションを開発

技術的な課題

  • 複雑な文書への対応: LLMベースのMapReduceを使って長文書を処理し、テーブルやレイアウト抽出にはビジョンモデルを使用
  • モデルルーティング: 各変換に最適なモデルを選択し、コストと速度を最適化
  • データ検証とスキーマ保証: 参照リンクと異常検知を通じて正確性を保証

多様なユースケース

  • 金融サービス: 複雑な文書(債券、信用格付けなど)を構造化形式で処理し、アンダーライティングの速度を高め、融資処理を自動化
  • カスタマーサポートおよびバックオフィス業務: 多様なスキーマとERPシステム間で文書をマッピングし、オンボーディング速度を向上させ、SOP順守を保証
  • データ前処理およびデータ収集: ETLパイプラインでのデータ前処理とRAGデータ収集が必要

GN⁺のまとめ

  • Trellisは非構造化データを構造化されたSQL形式に変換するAIベースのETLツールで、データチームやオペレーションチームの手作業を自動化
  • 複雑な文書処理、モデルルーティング、データ検証といった技術的課題を解決
  • 金融サービス、カスタマーサポート、データ前処理など、さまざまな業界で有用に活用できる
  • 非構造化データの処理に苦労している企業に特に有用と思われる
  • 類似機能を持つ他のプロジェクトとしては、Alteryx、Talendなどがある

1件のコメント

 
GN⁺ 2024-08-15
Hacker Newsの意見
  • オープンソースのPythonパッケージを開発中で、似た機能を提供している

    • Enronメールのデモ例を共有している
  • 主要な商業銀行では、PDFやメールに閉じ込められたデータを解決できず、信用リスクモデルを改善できなかった

    • この問題を解決することは大きな価値を生む
  • SoundTraceで関連プロジェクトを進めていた

    • 新しいクライアントのPDFオージオグラムデータを完全に抽出する必要があった
    • パイプラインを通じてPDFをOCRにかけ、テキストとテーブルを抽出し、LLMで直接パースした
    • オージオグラムのグラフをConvNetに送り、テーブルはプログラムでパースした
    • 結果をClaude Sonnetで検証し、一致しなければ手動レビューした
    • 精度はほぼ100%に到達した
  • Instabaseで働いていたが、PDFと文書スキャンを処理する能力が重要だった

  • Trellisのローンチを祝福するが、エッジケースはほぼ0%に近くなければならない

    • すべての組織が必要とするサービスであり、成功すれば多くの顧客がつくだろう
  • Roe AIとの競合や違いについて質問している

  • データの正確性をどのように検証したのか気にしている

  • 個人プロジェクトでTypeChat、Zod、Unstructuredを使って似た作業をしている

  • OpenAIの関数呼び出しを使って、何千ものスキャン文書からフィールドを抽出した

    • さまざまな入力文書形式では、一部フィールドの回収率が低かった
    • JSONスキーマを試して最適な情報を抽出した
    • 長い文書では、全文書を送るか、関連部分だけを送るかを決める必要があった
    • OCRの品質がよくなかった
    • 非技術ユーザーが#2を繰り返し実行できるようにすることが主要な革新である
  • 大きな問題をまだ解決していない状況でのローンチを祝福している

    • 大きな問題と予算を持つ顧客が最も取り残されている
    • Palantirのようなオンボーディング/統合によって顧客向けのカスタムソリューションを提供する
    • 99%以上の精度と人間の介入が効果的だ
    • 95%から99%への改善が大きな違いを生むことがある
    • "AIベースのワークフロー"ではなく、"99%+の高精度抽出"を強調すべきだ