8 ポイント 投稿者 xguru 4 시간 전 | まだコメントはありません。 | WhatsAppで共有
  • 自然言語の1文で、ライブWeb上から構造化データセットを生成し、設定した周期ごとに自動更新するオープンソースツール
    • 例: 「現在エンジニアを採用中のYC企業一覧と、投資ステージ、所在地、公開求人件数」
  • 入力文からスキーマを自動推論し、カラム名、型、主キー、Web上の探索場所まで決定
  • 自律エージェントがライブWebを調査し、実際の出典と照合検証したうえで重複を除去し、表として返す
    • オーケストレーターエージェントがエンティティを発見すると、サブエージェントが並列分散して各エンティティを調査・検証
  • 結果はCSV / XLSXでダウンロードでき、UI上で探索可能
  • **更新周期(30分、6時間、12時間、日次、週次)**を設定すると、エージェントがスケジュールどおりに再実行され、データセットを継続的に更新
  • 人間でもAIエージェントでも、Webとのあらゆる相互作用は結局データに帰着する(価格、企業、採用、研究、可用性、在庫など)
    • このデータは複数ページに散在しており、既存のスクレイピング / 検索API / LeadGenツールでは難しいカテゴリ横断のデータ収集に対応
      — 検索 / 抽出 / スキーマ設計 / 重複除去 / 検証 / cronジョブを毎回個別に行ったり、統合作業をしたりする必要がない
  • ターミナルのCLIからもデータセットの作成・エクスポートが可能
    • bigset create "..." --rows 30 --wait --csv
  • ただし、まだ実験段階のためスキーマ推論は常に完璧とは限らず、公開データにのみ適している
  • 技術スタック
    • フロントエンド: Next.js 16, React 19, Tailwind 4
    • バックエンド: Fastify, TypeScript(エージェントランナー)
    • 認証: ローカル認証(開発)、Clerk(クラウド)
    • データベース: Convex(self-hosted)
    • データ収集: TinyFish API(Search, Fetch, Browser)
    • AIオーケストレーション: Mastraワークフロー + Vercel AI SDK + OpenRouter → Claude Sonnet(スキーマ推論 + populateエージェント)
    • テーブルビュー: TanStack Table + react-window仮想化
    • エクスポート: CSV(内蔵) + XLSX(SheetJS、動的インポート)
    • 分析: PostHog — イベント、セッションリプレイ、エラー追跡(任意)
  • AGPL-3.0ライセンス

まだコメントはありません。

まだコメントはありません。