Fugu-MT 論文翻訳(概要): AliyunConsoleAgent: Training Web Agents in Real-World Cloud Environments via Distillation and Reinforcement Learning

論文の概要: AliyunConsoleAgent: Training Web Agents in Real-World Cloud Environments via Distillation and Reinforcement Learning

arxiv url: http://arxiv.org/abs/2606.09447v1
Date: Mon, 08 Jun 2026 12:55:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:07.073533
Title: AliyunConsoleAgent: Training Web Agents in Real-World Cloud Environments via Distillation and Reinforcement Learning
Title（参考訳）: AliyunConsoleAgent: 蒸留と強化学習による実世界のクラウド環境におけるWebエージェントのトレーニング
Authors: Bojie Rong, Zheyu Shen, Qiaoping Wang, Pengfei Kang, Yang Xu, Yawen Wei, Hanyu Wu, Zhi Zhao, Leihao Pei, Linquan Jiang,
Abstract要約: AliyunConsoleAgentは、現実世界のクラウドコンソールにおける自動ドキュメンテーション検証のためのフレームワークである。我々のモデルは、機械的な指示から、クラウドコンソールと製品固有の理解による自律的な意思決定へと進化する。
参考スコア（独自算出の注目度）: 3.7792425573912287
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present AliyunConsoleAgent, a web agent framework for automated documentation verification in real-world cloud consoles. Major cloud platforms encompass hundreds of products with rapid feature iteration, causing console UIs to frequently diverge from their corresponding documentation. Verifying that documented procedures accurately reflect the current console and can be executed end-to-end demands an estimated 4 million recurring inspections annually, yet manual coverage remains below 1%. While agent systems built on frontier proprietary models achieve high success rates, their prohibitive cost and data privacy constraints preclude large-scale deployment. We propose a two-stage training paradigm: supervised fine-tuning (SFT) on distilled frontier-model trajectories, followed by reinforcement learning using Group Relative Policy Optimization (GRPO) and a dual-channel outcome reward model in real cloud environments. To support large-scale RL training, we construct a high-determinism rollout system featuring Terraform-based resource pre-provisioning and LLM-driven on-demand provisioning, which effectively isolates environment noise from the training signal. We further introduce a rule-based reward evaluation protocol grounded in backend audit logs, providing objective, reward-hacking-resistant outcome judgment. Our model evolves from mechanical instruction following to autonomous decision-making with cloud console and product-specific understanding. Experiments on a challenging 278-task benchmark where the best frontier model achieves only 65.34% demonstrate that AliyunConsoleAgent-32B achieves a 63.52% mean success rate -- a 20.24 percentage-point improvement over the base model, narrowing the gap to the best frontier proprietary model to 1.82 pp (bootstrap 95% CI [-1.27, 7.39]) -- at 92% lower inference cost.
Abstract（参考訳）: 本稿では,AliyunConsoleAgentについて紹介する。AliyunConsoleAgentは,実世界のクラウドコンソールにおける自動ドキュメンテーション検証のためのWebエージェントフレームワークである。主要なクラウドプラットフォームには、迅速な機能のイテレーションを備えた数百の製品が含まれており、コンソールUIが対応するドキュメンテーションから頻繁に逸脱する原因となっている。ドキュメント化されたプロシージャが現在のコンソールを正確に反映し、エンドツーエンドで実行できることを検証すると、毎年400万回の定期的な検査が要求されるが、手作業によるカバレッジは1%以下である。フェデラルなプロプライエタリモデル上に構築されたエージェントシステムは高い成功率を達成する一方で、その禁忌なコストとデータプライバシの制約は大規模なデプロイメントを妨げる。蒸留フロンティアモデル軌道の教師付き微調整(SFT)と,グループ相対政策最適化(GRPO)を用いた強化学習,および実クラウド環境における二重チャネル結果報酬モデルを提案する。大規模RLトレーニングを支援するために,Terraformベースのリソース事前プロビジョニングとLLM駆動のオンデマンドプロビジョニングを備えた高決定性ロールアウトシステムを構築し,トレーニング信号から環境ノイズを効果的に分離する。さらに、バックエンド監査ログをベースとしたルールベースの報酬評価プロトコルを導入し、客観的かつ報奨に抵抗する結果判定を提供する。我々のモデルは、機械的な指示から、クラウドコンソールと製品固有の理解による自律的な意思決定へと進化する。ベストフロンティアモデルが65.34%しか達成していない278タスクベンチマークの実験では、AliyunConsoleAgent-32Bの平均成功率は63.52%であり、ベースモデルよりも20.24ポイント向上し、ベストフロンティアプロプライエタリモデルとのギャップを1.82pp(ブートストラップ95% CI [-1.27, 7.39])に短縮した。

関連論文リスト

Orchard: An Open-Source Agentic Modeling Framework [124.68499958175111]
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。 Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。 Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
論文参考訳（メタデータ） (2026-05-14T16:35:12Z)
AgentCPM-Explore: Realizing Long-Horizon Deep Exploration for Edge-Scale Agents [75.67445299298949]
AgentCPM-Exploreは、知識密度と強力な探索能力を備えたコンパクトな4Bエージェントモデルである。本稿では,パラメータ空間モデルの融合,報酬信号の復調,文脈情報の改良を特徴とする総合的なトレーニングフレームワークを提案する。 AgentCPM-Exploreは4つのベンチマークで8BクラスのSOTAモデルにマッチまたは超え、また5つのベンチマークでClaude-4.5-SonnetやDeepSeek-v3.2のような大規模モデルよりも優れている。
論文参考訳（メタデータ） (2026-02-06T08:24:59Z)
AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts [35.52607495764441]
大規模言語モデル(LLM)に基づく自律エージェントは、経済的生産に大きく貢献する多面的能力を示す。我々は、毎日のAI使用から派生したベンチマークであるAgentBenchを紹介し、32の現実シナリオにわたる6つのコアエージェント能力を評価した。これらのシナリオでは、平均90のツールコール、100万のトークン、解決に必要な実行時間が必要です。
論文参考訳（メタデータ） (2026-01-16T07:22:20Z)
SPARK: Stepwise Process-Aware Rewards for Reference-Free Reinforcement Learning [39.1720897614261]
密度の高いステップレベルのフィードバックを提供するプロセス報酬モデル(PRM)は、強化学習の可能性を示している。筆者らはSPARK(SPARK)という3段階のフレームワークを提案し、第1段階ではジェネレータモデルが多様な解を生成し、検証器モデルがそれらを評価する。ステップレベルで複数の独立した検証を集約することで、根底的な結果管理を超越したプロセス報酬モデルのトレーニングデータが得られることを示す。
論文参考訳（メタデータ） (2025-12-02T21:30:47Z)
Internalizing World Models via Self-Play Finetuning for Agentic RL [65.96875390986655]
エージェントとしての大規模言語モデル(LLM)は、しばしばアウト・オブ・ディストリビューション(OOD)のシナリオで苦労する。状態表現と遷移モデリングという2つのコンポーネントに分解することで、この世界モデルをエンコードする方法を示す。 SPAは,世界モデルを学習するために,セルフプレイ指導による微調整段階を通じてポリシーを冷やし始める,シンプルな強化学習フレームワークである。
論文参考訳（メタデータ） (2025-10-16T18:03:39Z)
AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T20:52:13Z)
DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning [61.10299147201369]
本稿では,Wild デバイス制御エージェントをトレーニングするための新しい自律型 RL 手法である DigiRL を提案する。 VLMベースの評価器を備えた,スケーラブルで並列化可能なAndroid学習環境を構築する。我々はAndroid-in-the-Wildデータセットを使用してDigiRLの有効性を実証し、RLでトレーニングした1.3B VLMは49.5%の絶対改善を実現した。
論文参考訳（メタデータ） (2024-06-14T17:49:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。