ocap - デスクトップ上のあらゆるものを記録する高性能レコーダー
(github.com/open-world-agents)AIエージェント学習用のデスクトップデータを収集するために作られましたが、汎用用途でも使えるオープンソースレコーダー ocap(Omnimodal CAPture)です。
OBSのような既存の録画ツールは映像しか保存できなかったり、複数種類のデータを同期して保存できなかったりします。AI学習には「ユーザーがいつ、どのキーを押し、マウスをどこへ動かし、どのウィンドウがアクティブだったのか」まで含めた同期済みデータが必要です。それを解決するために作られました。
特徴:
- 画面映像 + オーディオ + キーボード/マウスイベント + ウィンドウイベントをナノ秒単位で同期して記録
- ハードウェアアクセラレーションによるエンコード(H265/HEVC、NVIDIA GPU)
- コマンドひとつで録画開始/終了:
ocap my-recording→ Ctrl+C - コアロジックがPythonファイル1つ(約400行)に収まっており、カスタマイズしやすい
- GStreamerベースのため、Linux/macOSへの拡張も可能な構成
- 出力: .mkv(映像) + .mcap(イベントログ、ロボティクス分野ですでに検証済みのMCAPフォーマット)
インストール:
conda install open-world-agents::gstreamer-bundle
pip install ocap
またはリリースページからzipをダウンロードして run.bat を実行すれば使えます。
もともとはデスクトップデータでEmbodied AIを学習させるD2E研究プロジェクト(https://worv-ai.github.io/d2e/…
現在は Windows + NVIDIA GPU 環境のみ対応しており、AMD/Intel GPU や他のOSへの対応も、GStreamerパイプラインを変更するだけで可能な構成です。
GitHub: https://github.com/open-world-agents/ocap
PyPI: https://pypi.org/project/ocap/
まだコメントはありません。