世界初の汎用コンピュータ操作モデル「FDM-1」：技術概要と展望

Technical 従来の課題とFDM-1の革新性技術的アーキテクチャ1. ビデオエンコーダーの圧倒的な効率性

世界初の汎用コンピュータ操作モデル「FDM-1」：技術概要と展望

エグゼクティブ・サマリー

Standard Intelligence社が開発した「FDM-1（Foundation Dynamics Model-1）」は、コンピュータ操作に特化した世界初の汎用基盤モデルである。1,100万時間に及ぶ膨大なスクリーン録画データセットを活用し、従来のVision-Language Model（VLM）ベースのアプローチが抱えていた「コンテキストの短さ」と「データ収集コスト」という2つの大きな壁を打破した。FDM-1は、30 FPSの高フレームレートで動作し、複雑なCADモデリングからウェブサイトのバグ探索（ファジング）、さらには実世界での自動運転まで、多岐にわたるタスクを実行可能である。独自のビデオエンコーダーにより、既存のモデル（GPT-4、Gemini等）と比較して50倍から100倍のトークン効率を実現しており、最長2時間のビデオコンテキストを処理できる点が最大の特徴である。

従来の課題とFDM-1の革新性

従来のコンピュータ操作エージェントは、主に人間（コントラクター）がアノテーションを施したスクリーンショットを用いてVLMを微調整する手法をとっていた。しかし、この手法には以下の限界が存在した。

コンテキストの欠如: 数秒程度のコンテキストしか保持できず、長期的なタスクが困難。

データ不足: 高価な手動アノテーションに依存するため、オープンなデータセットは20時間未満と極めて小規模。

非効率な処理: 高フレームレートのビデオを直接処理できず、連続的な動作（マウス操作など）に対応できない。FDM-1は、インターネット上の膨大なビデオコーパスを教師なし学習で活用することで、これらの制限を克服した。

技術的アーキテクチャ

FDM-1の構築プロセスは、「逆ダイナミクスモデル（IDM）」、「大規模ラベリング」、「前方ダイナミクスモデル（FDM）」の3段階で構成されている。

1. ビデオエンコーダーの圧倒的な効率性

FDM-1の核心は、情報の密度が急激に変化するスクリーン録画に特化したビデオエンコーダーにある。このエンコーダーは、情報の損失を抑えつつ極めて高い圧縮率を実現している。| モデル/プラットフォーム | 20万トークンあたりのフレーム数（推定） || ------ | ------ || FDM-1 | 約2時間分のビデオを1Mトークンに収容 || Gemini | ~775 フレーム || ChatGPT (Computer Use) | ~240 フレーム || Claude | ~162 フレーム || NVIDIA Cosmos CV4x8x8 | ~49 フレーム |

FDM-1は、既存のSOTA（State-of-the-Art）モデルと比較して50倍〜100倍のトークン効率を誇り、CADやエンジニアリングのような長時間のワークフローを可能にする。

2. 逆ダイナミクスモデル（IDM）による自動ラベリング

1,100万時間のビデオにラベルを付与するため、同社は「逆ダイナミクスモデル（IDM）」を開発した。

仕組み: 画面の変化から、どのようなキー入力やマウス操作が行われたかを推測する。

手法: 「マスク拡散（Masked Diffusion）アーキテクチャ」を採用。非因果的なアプローチにより、後の画面状態（例：ペーストされた文字）から前の操作（例：Cmd+C）を正確に予測する。

成果: 人間によるアノテーションと同等の精度を達成し、データ制約を解消した。

3. 前方ダイナミクスモデル（FDM）とトークン化

FDMは、過去のフレームとアクションから「次のアクション」を予測する。

操作の離散化: キー入力、スクロール、マウス移動をトークン化。

指数ビン化（Exponential Binning）: マウス移動は、頻繁な細かい動きを精密に、稀な大きな動きを粗く分類する指数ビン化を採用し、効率的な学習を実現した。

低遅延: Chain-of-Thought（思考の連鎖）を介さずビデオとアクションを直接処理するため、極めて低遅延での推論が可能。

評価環境とインフラストラクチャ

モデルの性能を検証するため、大規模なシミュレーション環境が構築されている。

フォーク可能な仮想マシン（VM）: 80,000台のUbuntuデスクトップVMを運用。OSの状態を瞬時に複製（フォーク）でき、1時間あたり100万回以上のロールアウトを実行可能。

超低遅延: GPUとVMの配置最適化やカスタムRustバインディングにより、画面キャプチャからアクション実行までの往復遅延を 11ミリ秒まで短縮した。

実証された能力とユースケース

FDM-1は、単なる画面操作を超えた汎用性を示している。

CAD（コンピュータ支援設計）: Blender等の複雑なソフトウェアで、連続的なマウス操作を伴うモデリングタスクを完遂。

GUIファジング（UIテスト）: 人間のような挙動でアプリを探索し、ランダムな操作では発見できない深刻なバグ（例：送金直後のボタン重複クリックによる残高マイナス）を特定。

実世界の自動運転:

サンフランシスコの市街地において、ウェブインターフェース経由での自動運転を実証。

わずか 1時間未満の微調整データで、曲がり角の走行や直進補正に成功。

コンピュータ操作の学習が、実世界の物理的なタスク（ステアリング、アクセル、ブレーキ）に転移することを示した。

結論と今後の展望

FDM-1の登場により、コンピュータ操作モデルの開発は「データの制約」から「計算リソースの制約」へとフェーズが移行した。1,100万時間の学習データと、数時間に及ぶビデオコンテキストを処理できる能力は、AIエージェントが「同僚」としてCAD、金融、エンジニアリング、そして機械学習研究に従事する未来を現実的なものにしている。Standard Intelligenceチームは、今後10年以内に汎用人工知能（AGI）が実現される可能性が高いと予測しており、FDM-1はその過程における「自己主導型で有能なコンピュータ操作エージェント」の欠落していたピースを埋める存在となる。