All Reports

SEAgent:経験からの自律学習による自己進化型コンピュータ使用エージェント

Technical 1. 背景と課題2. SEAgentのアーキテクチャ3. 自律的強化学習

エグゼクティブ・サマリー

本文書は、大規模視覚言語モデル(LVLM)を基盤としたコンピュータ使用エージェント(CUA)が、人間のアノテーションに依存せず、未知のソフトウェア環境を自律的に探索し、試行錯誤を通じて進化する「SEAgent」フレームワークについてまとめたものである。

SEAgentは、World State Model(環境状態の理解と評価)、Curriculum Generator(段階的課題生成)、そして強化学習による自律的なポリシー更新という3つの主要コンポーネントから構成される。さらに、スペシャリストからジェネラリストへの訓練戦略により、複数ソフトウェアに対応する汎用エージェントの構築を実現している。

OSWorldベンチマークにおいて、UI-TARSベースラインの成功率を11.3%から34.5%へと大幅に向上させ、人間の介入なしにCUAの自律的進化を実証した。

1. 背景と課題

LVLMを活用したCUAは、スクリーンショットを視覚的に解釈し、キーボード・マウス操作でコンピュータを操作する能力を持つ。しかし、現行のCUAは以下の課題を抱えている:

これらの課題に対し、SEAgentは「経験からの学習」というパラダイムを採用し、エージェント自身が探索・学習・進化するフレームワークを提案している。

2. SEAgentのアーキテクチャ

2.1 Actor Model(行動モデル)

UI-TARS-7B-DPOを基盤とし、現在の環境状態とタスク指示に基づいて行動(クリック、入力、ドラッグ等)を生成するポリシーモデルである。強化学習を通じて反復的に更新される。

2.2 World State Model(世界状態モデル)

Qwen2.5-VL-7Bをベースにファインチューニングした視覚言語モデルで、2つの機能を持つ:

GPT-4oに匹敵する判定精度を達成しつつ、完全にオープンソースのモデルで構成されている。

2.3 Curriculum Generator(カリキュラム生成器)

Qwen2.5-72Bを利用し、ソフトウェアのガイドブックメモリを更新しながら、段階的により多様で挑戦的なタスクを自動生成する。探索フェーズごとに難易度が上がるカリキュラム学習パラダイムを実現している。

3. 自律的強化学習

SEAgentの強化学習は以下の要素で構成される:

最終的な訓練損失は L = L_GRPO + γ・L_AI(γ=0.2)として組み合わされる。この方式は、GAE(Generalized Advantage Estimation)ベースの手法よりも効果的であることが実験で示されている。

4. スペシャリストからジェネラリストへ

単一ソフトウェアの専門エージェントを直接マルチソフトウェアの汎用エージェントに訓練すると性能が低下する問題に対し、3段階の戦略を提案:

この結果、ジェネラリストモデルは個々のスペシャリストのアンサンブルを上回る性能(34.5%)を達成した。

5. 実験結果

OSWorldベンチマーク(5つのプロフェッショナルソフトウェア)での評価結果:

ScienceBoardベンチマーク(科学系ソフトウェア)においても大幅な改善を確認し、未知のドメインへの適応能力が実証された。

6. 意義と今後の展望

SEAgentは、コンピュータ使用エージェントの自律的進化という新しいパラダイムを提示した。主な貢献は:

今後の課題として、より複雑なタスク(人間専門家が数時間かかるワークフロー)への対応、実環境からの報酬信号の活用が挙げられている。