論文の概要: Fara-1.5: Scalable Learning Environments for Computer Use Agents
- arxiv url: http://arxiv.org/abs/2606.20785v1
- Date: Thu, 18 Jun 2026 17:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:51:29.653613
- Title: Fara-1.5: Scalable Learning Environments for Computer Use Agents
- Title(参考訳): Fara-1.5: コンピュータ利用エージェントのためのスケーラブルな学習環境
- Authors: Ahmed Awadallah, Sahil Gupta, Yash Lara, Yadong Lu, Hussein Mozannar, Akshay Nambi, Zach Nussbaum, Yash Pandya, Aravind Rajeswaran, Corby Rosset, Alexey Taymanov, Luiz do Valle, Vibhav Vineet, Spencer Whitehead, Andrew Zhao,
- Abstract要約: FaraGen1.5は、環境、ソルバ、検証器という3つのモジュールコンポーネントからなるコンピュータ利用エージェントのためのスケーラブルなデータパイプラインである。
FaraGen1.5は、認証によってゲートドメインを忠実にシミュレートする、あるいは不可逆的なアクションを必要とする、ライブWebサイトと合成環境の両方を使用している。
結果の軌道を3つの補完的検証器でスコアし、タスクの正しさ、効率性、臨界点の順守をカバーしている。
- 参考スコア(独自算出の注目度): 34.72158889421745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Collecting computer use data from human demonstrations is expensive and slow, motivating the need for scalable generation strategies. This requires two key ingredients: environments in which agents can act and verifiers that can judge whether their demonstrations succeeded. We introduce FaraGen1.5, a scalable data pipeline for computer use agents composed of three modular components: environments, solvers, and verifiers. FaraGen1.5 uses both live websites and synthetic environments that faithfully simulate domains gated by authentication or that require irreversible actions. It employs a solver harness that can be powered by multiple models, including strong frontier models such as GPT-5.4, and also incorporates a user simulator to enable multi-turn rollouts. Finally, FaraGen1.5 scores the resulting trajectories with three complementary verifiers covering task correctness, efficiency, and critical-point adherence. Using data produced by this pipeline, we train Fara1.5, a family of native computer use agents (CUAs) at three scales built on Qwen3.5 (4B, 9B, and 27B). To train these models, we employ a supervised finetuning (SFT) recipe that carefully balances data from FaraGen1.5 for broad coverage, specific high-value tasks, and target model deficiencies in an iterative approach. Each model sets a new state of the art for its size class on browser-use benchmarks: Fara1.5-9B reaches 63.4% on Online-Mind2Web and 86.6% on WebVoyager, while Fara1.5-27B achieves 72.3% on Online-Mind2Web, which is competitive with much larger proprietary systems.
- Abstract(参考訳): 人間のデモからコンピュータ使用データを収集するのは高価で遅く、スケーラブルな生成戦略の必要性を動機付けている。
エージェントが動作可能な環境と、デモが成功したかどうかを判断できる検証ツールの2つの重要な要素が必要です。
FaraGen1.5は、環境、ソルバ、検証器という3つのモジュールコンポーネントからなるコンピュータ利用エージェントのためのスケーラブルなデータパイプラインである。
FaraGen1.5は、認証によってゲートされたドメインを忠実にシミュレートする、あるいは不可逆的なアクションを必要とする、ライブWebサイトと合成環境の両方を使用している。
GPT-5.4のような強力なフロンティアモデルを含む複数のモデルで利用でき、マルチターンロールアウトを可能にするユーザーシミュレータも搭載している。
最後に、FaraGen1.5は、タスクの正確性、効率性、臨界点の付着性をカバーする3つの補完的検証器を用いて、結果の軌跡をスコアする。
このパイプラインで生成されたデータを使用して、Qwen3.5(4B、9B、27B)上に構築された3つのスケールで、ネイティブコンピュータ使用エージェント(CUA)ファミリーであるFara1.5をトレーニングします。
これらのモデルのトレーニングには、FaraGen1.5からのデータ、特定の高価値タスク、反復的アプローチにおけるターゲットモデル欠陥を注意深くバランスする教師付き微調整(SFT)レシピを用いる。
Fara1.5-9B は Online-Mind2Web で63.4%、WebVoyager で86.6%、Fara1.5-27B は Online-Mind2Web で72.3%に達する。
関連論文リスト
- ProCUA-SFT Technical Report [80.97543110323542]
コンピュータ使用エージェント(CUA)の訓練には、全デスクトップ環境で収集された大規模で多様な軌跡データが必要である。
93Kの合成軌道から抽出した3.1MステップレベルのSFTサンプルのデータセットであるProCUA-SFTについて述べる。
ProCUA-SFTの微調整UI-TARS 7Bは、OSWorldで45.0%、ベースモデルよりも18.7ポイント改善されている。
論文 参考訳(メタデータ) (2026-06-15T22:04:11Z) - Orchard: An Open-Source Agentic Modeling Framework [124.68499958175111]
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
論文 参考訳(メタデータ) (2026-05-14T16:35:12Z) - MolmoWeb: Open Visual Web Agent and Open Data for the Open Web [60.29597961827816]
MolmoWebMixはブラウザのタスクとWeb-GUIの知覚データを組み合わせたものだ。
MolmoWeb-8Bは、完全にオープンなマルチモーダルWebエージェントのファミリーである。
我々は、Webエージェントのオープンな研究を可能にするため、モデルチェックポイント、トレーニングデータ、コード、統一された評価ハーネスをリリースする。
論文 参考訳(メタデータ) (2026-04-09T17:54:02Z) - Structured Distillation of Web Agent Capabilities Enables Generalization [33.41723014134473]
本稿では,人的アノテーションの役割に類似してWebエージェントの合成軌道生成を構築するフレームワークであるAgent-as-Annotatorsを紹介する。
Gemini 3 Proを教師として使用し、6つのWeb環境に3000のトラジェクトリを生成します。
結果、WebArenaでは41.5%が達成され、Claude 3.5 Sonnet (36.0%) や GPT-4o (31.5%) といったクローズドソースモデルを上回る結果となった。
論文 参考訳(メタデータ) (2026-04-09T04:04:15Z) - How Small Can 6G Reason? Scaling Tiny Language Models for AI-Native Networks [3.099103925863002]
AIネイティブな6Gシステムにおけるネットワークレベルの意味推論のためのコンパクト言語モデルのスケーリング挙動と展開効率について検討する。
我々は,Llama-3.2-1B,Granite-1B,Qwen2.5-3Bなどの中規模アーキテクチャを含む135M(SmolLM2-135M)から7Bパラメータ(Qwen2.5-7B)までのモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T18:19:49Z) - Fara-7B: An Efficient Agentic Model for Computer Use [34.151874887626256]
マルチステップWebタスクのための新しい合成データ生成システムであるFaraGenを紹介する。
このデータを用いて、スクリーンショットのみを使用してコンピュータを知覚するネイティブCUAモデルであるFara-7Bをトレーニングする。
Fara-7Bは、WebVoyager、Online-Mind2Web、WebTailBenchといったベンチマークで、同等の大きさのCUAモデルよりも優れています。
論文 参考訳(メタデータ) (2025-11-24T19:56:28Z) - UltraCUA: A Foundation Model for Computer Use Agents with Hybrid Action [77.63125913907771]
本稿では,GUIプリミティブと高レベルのプログラムツールコールのギャップを埋める基盤モデルであるUltraCUAを提案する。
7Bおよび32Bモデルによる実験は、最先端のエージェントよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-10-20T17:48:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。