7 ポイント 投稿者 ironman0722 2026-03-31 | 1件のコメント | WhatsAppで共有
  • 自然言語の命令でCivilization VIをプレイするcomputer-use VLMハーネス
    「東へ拡張」「経済重視」「科学勝利」などの高レベルな意図を入力すると、エージェントが実際の操作を実行

  • 戦略と実行を分離した3層構造(Strategy / Action / HITL)

    • Strategy Layer: 自然言語 → 構造化された目標への変換、長期戦略の維持およびタスク分解
    • Action Layer: 画面ベース(VLM)の状態認識 + マウス/キーボードで実行(ゲームAPIなし)
    • HITL Layer: 実行中に介入・修正・中断できるcontrollable autonomy構造
  • 1つの戦略 → 複数のaction sequenceに分解され、タスクごとに2〜16回のモデル呼び出しが発生

  • サブエージェントベースで、都市管理やユニット移動などbounded task単位で実行

  • 従来のRL/IL/スクリプト方式ではなく、「intent → actionインターフェースへの転換」を試す実験

  • 直接操作ではなく、戦略の委任とエージェントオーケストレーション方式

  • 主な技術的課題:

    • VLMのperceptionエラー、
    • execution drift、
    • 成功可否の検証の難しさ
    • multi-step実行におけるlatencyとAPIコストの増加、fallback戦略の品質低下
  • 完全自動化ではなく、human-in-the-loopベースでリアルタイムな戦略修正と統制が可能

  • UIのみの環境におけるagent control / verification問題を扱う実験的システム

  • ゲームプレイそのものよりも、「人間-システムインターフェースを戦略レベルへ引き上げること」に焦点

1件のコメント

 
bus710 2026-04-01

せっせと征服/文化/科学/外交勝利に向かって走っていると、決まってどこからか宗教勝利で不意打ちを食らう