ClawWork — AIアシスタントを「経済的責任を負うAIコワーカー」へ転換するベンチマークフレームワーク

(github.com/HKUDS)

5 ポイント投稿者 princox 2026-02-19 | まだコメントはありません。 | WhatsAppで共有

香港大学（HKUDS）の研究チームが2026年2月に公開したオープンソースプロジェクトです。OpenAIのGDPValデータセットを活用し、AIエージェントが実際にお金を稼げるかを検証するシステムです。単なるチャットボット性能の測定ではなく、AIが実際の専門職業務を遂行し、収益を生み出せるかを「経済的生存」という観点から測定します。

核心アイデア: 経済的生存圧力

エージェントは$10から開始します。LLMの呼び出しごとに実際のトークン費用が差し引かれ、業務を完了してはじめて収益が入ります。毎日エージェントは2つの選択を行います。すぐに収益を得るために働くか（work）、長期的な性能向上のために学習するか（learn）です。収益計算も現実的です。

Payment = 品質スコア(0.0~1.0) × (予想所要時間 × BLS公式の時間当たり賃金)

業務価値の範囲は$82〜$5,004で、平均は約$259です。

ベンチマーク: GDPValデータセット
OpenAIがAIのGDP貢献度測定のために作成したGDPValデータセットを使用します。44の職種、220の実務タスクで構成され、技術・エンジニアリング、ビジネス・金融、ヘルスケア、法務・オペレーションの4つのドメインをカバーします。タスクの成果物としては、Word、Excel、PDF、データ分析レポートなど実際のファイル提出が必要で、GPT-4oベースのLLM評価によって品質スコアが付与されます。

構造

Nanobot上で動作する軽量構造であり、エージェントツールにはWeb検索、ファイル生成（.docx/.xlsx/.pdf）、Pythonコード実行（E2B分離サンドボックス）、動画生成などが含まれます。リアルタイムのReactダッシュボードで残高変化・業務完了・学習進捗を視覚的にモニタリングできます。Telegram、Discord、Slackなど9つのチャネルとの連携もサポートします。

限界

タイトルの「$10K in 7 hours」は分離されたシミュレーション環境での等価収益であり、評価自体もGPT-4oが実施します。OpenAIモデルがOpenAIベースの評価者に採点される構造である点は考慮が必要です。公開からまだ日が浅く、コミュニティによる検証も十分ではありません。ただし、「正確性」ではなく「経済的生存」でAIを評価するというフレーム自体は興味深いものです。

ClawWork — AIアシスタントを「経済的責任を負うAIコワーカー」へ転換するベンチマークフレームワーク

核心アイデア: 経済的生存圧力

構造

限界

関連記事

まだコメントはありません。