SEAgent：経験からの自律学習による自己進化型コンピュータ使用エージェント

Technical 1. 背景と課題2. SEAgentのアーキテクチャ3. 自律的強化学習

エグゼクティブ・サマリー

本文書は、大規模視覚言語モデル（LVLM）を基盤としたコンピュータ使用エージェント（CUA）が、人間のアノテーションに依存せず、未知のソフトウェア環境を自律的に探索し、試行錯誤を通じて進化する「SEAgent」フレームワークについてまとめたものである。

SEAgentは、World State Model（環境状態の理解と評価）、Curriculum Generator（段階的課題生成）、そして強化学習による自律的なポリシー更新という3つの主要コンポーネントから構成される。さらに、スペシャリストからジェネラリストへの訓練戦略により、複数ソフトウェアに対応する汎用エージェントの構築を実現している。

OSWorldベンチマークにおいて、UI-TARSベースラインの成功率を11.3%から34.5%へと大幅に向上させ、人間の介入なしにCUAの自律的進化を実証した。

1. 背景と課題

LVLMを活用したCUAは、スクリーンショットを視覚的に解釈し、キーボード・マウス操作でコンピュータを操作する能力を持つ。しかし、現行のCUAは以下の課題を抱えている：

人間がキュレーションした高コストなデータセット（デモンストレーション、ビデオチュートリアルなど）に強く依存している
新しいソフトウェアが頻繁に登場・更新されるため、アノテーションデータの確保が追いつかない
未知のソフトウェア環境への適応能力が限定的である

これらの課題に対し、SEAgentは「経験からの学習」というパラダイムを採用し、エージェント自身が探索・学習・進化するフレームワークを提案している。

2. SEAgentのアーキテクチャ

2.1 Actor Model（行動モデル）

UI-TARS-7B-DPOを基盤とし、現在の環境状態とタスク指示に基づいて行動（クリック、入力、ドラッグ等）を生成するポリシーモデルである。強化学習を通じて反復的に更新される。

2.2 World State Model（世界状態モデル）

Qwen2.5-VL-7Bをベースにファインチューニングした視覚言語モデルで、2つの機能を持つ：

環境状態キャプショニング：GUI要素の詳細な記述（ボタン検出、OCRなど）
軌跡判定：エージェントの行動履歴全体を評価し、各ステップの成功・失敗を判定

GPT-4oに匹敵する判定精度を達成しつつ、完全にオープンソースのモデルで構成されている。

2.3 Curriculum Generator（カリキュラム生成器）

Qwen2.5-72Bを利用し、ソフトウェアのガイドブックメモリを更新しながら、段階的により多様で挑戦的なタスクを自動生成する。探索フェーズごとに難易度が上がるカリキュラム学習パラダイムを実現している。

3. 自律的強化学習

SEAgentの強化学習は以下の要素で構成される：

敵対的模倣（Adversarial Imitation）：失敗行動からの乖離を促進する対照学習損失
GRPO（Group Relative Policy Optimization）：検証可能な報酬に基づく正しい行動の強化
ステップレベル報酬：World State Modelによる各行動の成功・失敗の細粒度評価

最終的な訓練損失は L = L_GRPO + γ・L_AI（γ=0.2）として組み合わされる。この方式は、GAE（Generalized Advantage Estimation）ベースの手法よりも効果的であることが実験で示されている。

4. スペシャリストからジェネラリストへ

単一ソフトウェアの専門エージェントを直接マルチソフトウェアの汎用エージェントに訓練すると性能が低下する問題に対し、3段階の戦略を提案：

ステップ1：各ソフトウェア（VSCode, GIMP, Impress, VLC, Writer）で個別のスペシャリストエージェントを訓練
ステップ2：スペシャリストの成功軌跡（3.5K件）を蒸留し、SFTでジェネラリストモデルを初期化
ステップ3：全ソフトウェア環境でさらに強化学習を適用

この結果、ジェネラリストモデルは個々のスペシャリストのアンサンブルを上回る性能（34.5%）を達成した。

5. 実験結果

OSWorldベンチマーク（5つのプロフェッショナルソフトウェア）での評価結果：

SEAgent（スペシャリスト-ジェネラリスト）：全体成功率 34.5%
既存最高のオープンソース手法（DigiRL等）：21.0%
GPT-4o：7.08%、Claude 3.7 Sonnet：19.7%
人間のパフォーマンス：74.5%

ScienceBoardベンチマーク（科学系ソフトウェア）においても大幅な改善を確認し、未知のドメインへの適応能力が実証された。

6. 意義と今後の展望

SEAgentは、コンピュータ使用エージェントの自律的進化という新しいパラダイムを提示した。主な貢献は：

人間の介入なしにソフトウェア操作能力を獲得・向上させるフレームワーク
オープンソースモデルのみで構成された完全自律的なシステム
カリキュラム学習とスペシャリスト-ジェネラリスト戦略の有効性の実証

今後の課題として、より複雑なタスク（人間専門家が数時間かかるワークフロー）への対応、実環境からの報酬信号の活用が挙げられている。