7 ポイント 投稿者 milkclouds00 2026-02-20 | まだコメントはありません。 | WhatsAppで共有

AIエージェント学習用のデスクトップデータを収集するために作られましたが、汎用用途でも使えるオープンソースレコーダー ocap(Omnimodal CAPture)です。

OBSのような既存の録画ツールは映像しか保存できなかったり、複数種類のデータを同期して保存できなかったりします。AI学習には「ユーザーがいつ、どのキーを押し、マウスをどこへ動かし、どのウィンドウがアクティブだったのか」まで含めた同期済みデータが必要です。それを解決するために作られました。

特徴:

  • 画面映像 + オーディオ + キーボード/マウスイベント + ウィンドウイベントをナノ秒単位で同期して記録
  • ハードウェアアクセラレーションによるエンコード(H265/HEVC、NVIDIA GPU)
  • コマンドひとつで録画開始/終了: ocap my-recording → Ctrl+C
  • コアロジックがPythonファイル1つ(約400行)に収まっており、カスタマイズしやすい
  • GStreamerベースのため、Linux/macOSへの拡張も可能な構成
  • 出力: .mkv(映像) + .mcap(イベントログ、ロボティクス分野ですでに検証済みのMCAPフォーマット)

インストール:

conda install open-world-agents::gstreamer-bundle  
pip install ocap  

またはリリースページからzipをダウンロードして run.bat を実行すれば使えます。

もともとはデスクトップデータでEmbodied AIを学習させるD2E研究プロジェクト(https://worv-ai.github.io/d2e/…

現在は Windows + NVIDIA GPU 環境のみ対応しており、AMD/Intel GPU や他のOSへの対応も、GStreamerパイプラインを変更するだけで可能な構成です。

GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/

まだコメントはありません。

まだコメントはありません。