civStation – Civilization VIを戦略レベルで制御するcomputer-use VLMベースのエージェント（Human in the loop対応）

ironman0722 · 2026-03-31T14:03:37+09:00

自然言語の命令でCivilization VIをプレイするcomputer-use VLMハーネス「東へ拡張」「経済重視」「科学勝利」などの高レベルな意図を入力すると、エージェントが実際の操作を実行戦略と実行を分離した3層構造（Strategy / Action / HITL） Strategy Layer: 自然言語 → 構造化された目標への変換、長期戦略の維持およびタスク分解 Action Layer: 画面ベース（VLM）の状態認識 + マウス/キーボードで実行（ゲームAPIなし） HITL Layer: 実行中に介入・修正・中断できるcontrollable autonomy構造 1つの戦略 → 複数のaction sequenceに分解され、タスクごとに2〜16回のモデル呼び出しが発生サブエージェントベースで、都市管理やユニット移動などbounded task単位で実行従来のRL/IL/スクリプト方式ではなく、「intent → actionインターフェースへの転換」を試す実験直接操作ではなく、戦略の委任とエージェントオーケストレーション方式主な技術的課題: VLMのperceptionエラー、 execution drift、成功可否の検証の難しさ multi-step実行におけるlatencyとAPIコストの増加、fallback戦略の品質低下完全自動化ではなく、human-in-the-loopベースでリアルタイムな戦略修正と統制が可能 UIのみの環境におけるagent control / verification問題を扱う実験的システムゲームプレイそのものよりも、「人間-システムインターフェースを戦略レベルへ引き上げること」に焦点

(github.com/NomaDamas)

7 ポイント投稿者 ironman0722 2026-03-31 | 1件のコメント | WhatsAppで共有

自然言語の命令でCivilization VIをプレイするcomputer-use VLMハーネス
「東へ拡張」「経済重視」「科学勝利」などの高レベルな意図を入力すると、エージェントが実際の操作を実行
戦略と実行を分離した3層構造（Strategy / Action / HITL）
- Strategy Layer: 自然言語 → 構造化された目標への変換、長期戦略の維持およびタスク分解
- Action Layer: 画面ベース（VLM）の状態認識 + マウス/キーボードで実行（ゲームAPIなし）
- HITL Layer: 実行中に介入・修正・中断できるcontrollable autonomy構造
1つの戦略 → 複数のaction sequenceに分解され、タスクごとに2〜16回のモデル呼び出しが発生
サブエージェントベースで、都市管理やユニット移動などbounded task単位で実行
従来のRL/IL/スクリプト方式ではなく、「intent → actionインターフェースへの転換」を試す実験
直接操作ではなく、戦略の委任とエージェントオーケストレーション方式
主な技術的課題:
- VLMのperceptionエラー、
- execution drift、
- 成功可否の検証の難しさ
- multi-step実行におけるlatencyとAPIコストの増加、fallback戦略の品質低下
完全自動化ではなく、human-in-the-loopベースでリアルタイムな戦略修正と統制が可能
UIのみの環境におけるagent control / verification問題を扱う実験的システム
ゲームプレイそのものよりも、「人間-システムインターフェースを戦略レベルへ引き上げること」に焦点

1件のコメント

bus710 2026-04-01

せっせと征服／文化／科学／外交勝利に向かって走っていると、決まってどこからか宗教勝利で不意打ちを食らう

civStation – Civilization VIを戦略レベルで制御するcomputer-use VLMベースのエージェント（Human in the loop対応）

関連記事

1件のコメント