civStation – Civilization VIを戦略レベルで制御するcomputer-use VLMベースのエージェント(Human in the loop対応)
(github.com/NomaDamas)-
自然言語の命令でCivilization VIをプレイするcomputer-use VLMハーネス
「東へ拡張」「経済重視」「科学勝利」などの高レベルな意図を入力すると、エージェントが実際の操作を実行 -
戦略と実行を分離した3層構造(Strategy / Action / HITL)
- Strategy Layer: 自然言語 → 構造化された目標への変換、長期戦略の維持およびタスク分解
- Action Layer: 画面ベース(VLM)の状態認識 + マウス/キーボードで実行(ゲームAPIなし)
- HITL Layer: 実行中に介入・修正・中断できるcontrollable autonomy構造
-
1つの戦略 → 複数のaction sequenceに分解され、タスクごとに2〜16回のモデル呼び出しが発生
-
サブエージェントベースで、都市管理やユニット移動などbounded task単位で実行
-
従来のRL/IL/スクリプト方式ではなく、「intent → actionインターフェースへの転換」を試す実験
-
直接操作ではなく、戦略の委任とエージェントオーケストレーション方式
-
主な技術的課題:
- VLMのperceptionエラー、
- execution drift、
- 成功可否の検証の難しさ
- multi-step実行におけるlatencyとAPIコストの増加、fallback戦略の品質低下
-
完全自動化ではなく、human-in-the-loopベースでリアルタイムな戦略修正と統制が可能
-
UIのみの環境におけるagent control / verification問題を扱う実験的システム
-
ゲームプレイそのものよりも、「人間-システムインターフェースを戦略レベルへ引き上げること」に焦点
1件のコメント
せっせと征服/文化/科学/外交勝利に向かって走っていると、決まってどこからか宗教勝利で不意打ちを食らう