論文の概要: ComAct: Reframing Professional Software Manipulation via COM-as-Action Paradigm
- arxiv url: http://arxiv.org/abs/2606.13239v1
- Date: Thu, 11 Jun 2026 11:53:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.766574
- Title: ComAct: Reframing Professional Software Manipulation via COM-as-Action Paradigm
- Title(参考訳): ComAct: COM-as-Action Paradigmによるプロフェッショナルなソフトウェア操作の緩和
- Authors: Jiaxin Ai, Tao Hu, Xuemeng Yang, Shu Zou, Hairong Zhang, Daocheng Fu, Yu Yang, Hongbin Zhou, Nianchen Deng, Pinlong Cai, Zhongyuan Wang, Botian Shi, Kaipeng Zhang, Licheng Wen,
- Abstract要約: ComActorはプログレッシブな3段階フレームワークを通じてトレーニングされた自己修正エージェントである。
ComForgeは、Windowsコンテナで大規模なトレーニングを行うためのスケーラブルなプラットフォームである。
ComCADBenchは、実際のCADソフトウェアを操作するエージェントの最初のベンチマークである。
- 参考スコア(独自算出の注目度): 44.50099842456479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing computer-use agents remain fundamentally limited in professional software manipulation: GUI-based agents suffer from fragile visual grounding and long-horizon error accumulation, while API-basedapproaches struggle with heterogeneous protocols and inaccessible commercial interfaces. In this work,we identify the Component Object Model (COM) as a unified executable abstraction, proposing COM-as-Action: a new paradigm that reframes professional software interaction as deterministic program synthesisrather than sequential visual control. To validate this paradigm in the most demanding environments, weintroduce ComCADBench, the first benchmark for agents operating real industrial CAD software. Ourexperiments reveal a substantial paradigm gap: frontier proprietary models achieve near-zero successunder GUI-based interaction, whereas COM-based execution yields substantial immediate gains. Tobridge the remaining gap between syntactic correctness and geometric accuracy, we develop ComActor, aself-correcting agent trained through a progressive three-stage framework, alongside ComForge, a scalableplatform for large-scale training in Windows containers. Extensive experiments show that ComActorachieves state-of-the-art performance on ComCADBench, with strong resilience in long-horizon taskswhere baselines collapse, and generalizes to external CAD benchmark.
- Abstract(参考訳): GUIベースのエージェントは脆弱な視覚的グラウンディングと長い水平誤差の蓄積に悩まされ、APIベースのアポローチは異種プロトコルやアクセス不能な商用インターフェースに苦しむ。
本稿では、COMオブジェクトモデル(COM)を一貫した実行可能な抽象化として定義し、COM-as-Actionを提案する。
このパラダイムを最も要求の多い環境で検証するために、実産業CADソフトウェアを運用するエージェントの最初のベンチマークであるComCADBenchを紹介した。
フェデラルなプロプライエタリなモデルは、GUIベースのインタラクションでほぼゼロの成功を収める一方、COMベースの実行は、実質的な即時的な利益をもたらす。
構文的正しさと幾何的精度の残りのギャップを埋めるために,プログレッシブな3段階フレームワークを通じてトレーニングされた自己修正エージェントであるComActorと,Windowsコンテナでの大規模トレーニングのためのスケーラブルなプラットフォームであるComForgeを開発した。
ComCADBenchにおけるComActorachieveの最先端性能は,ベースラインが崩壊する長期タスクにおいて強いレジリエンスを持ち,外部CADベンチマークに一般化されている。
関連論文リスト
- IterCAD: An Iterative Multimodal Agent for Visually-Grounded CAD Generation and Editing [31.86100517851177]
IterCADは、クローズドループ、インタラクティブCAD生成および編集のための統合マルチモーダルエージェントフレームワークである。
複数のベンチマークで高い競争力を発揮し、コードの実行可能性と幾何学的精度の両方において、既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2026-06-11T13:53:21Z) - Exploring Interaction Paradigms for LLM Agents in Scientific Visualization [7.22431217973039]
本稿では,大規模言語モデル(LLM)エージェントが科学的可視化(SciVis)タスクでどのように機能するかを検討する。
我々は、ドメイン固有のエージェントと構造化ツールの使用、コンピュータ利用エージェント、汎用コーディングエージェントの3つの主要な相互作用パラダイムを比較した。
論文 参考訳(メタデータ) (2026-04-30T15:22:28Z) - Step-level Optimization for Efficient Computer-use Agents [51.29573359027217]
我々は、強力なコンピュータ利用エージェントは、実際は高価で遅いと論じている。
本稿では,コンピュータ利用エージェントのためのイベント駆動ステップレベルカスケードを提案する。
論文 参考訳(メタデータ) (2026-04-29T19:59:36Z) - VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining [49.78591189918702]
VisualToolChain-Bench (VTC-Bench)を導入し,マルチモーダル大言語モデル(MLLM)におけるツール使用の習熟度を評価する。
リアルなコンピュータビジョンパイプラインに合わせるために、我々のフレームワークは32種類のOpenCVベースの視覚操作を備えている。
正確な評価のために、9カテゴリの認知階層にまたがる680のキュレートされた問題を提示する。
論文 参考訳(メタデータ) (2026-03-16T09:31:44Z) - Computer-Using World Model [58.59112582915026]
我々は,次のユーザインタフェース(UI)状態を予測するデスクトップソフトウェアのための世界モデルであるComputer-Using World Model (CUWM)を紹介する。
CUWMはまずエージェント関連状態変化のテキスト記述を予測し、次に次のスクリーンショットを合成するために視覚的にこれらの変化を実現する。
テスト時間動作探索を用いてCUWMを評価し、凍結エージェントが世界モデルを用いて実行前の候補動作をシミュレートし比較する。
論文 参考訳(メタデータ) (2026-02-19T13:48:29Z) - Confucius Code Agent: Scalable Agent Scaffolding for Real-World Codebases [44.366968508477235]
大規模に運用可能なスケーラブルなソフトウェアエンジニアリングエージェントであるConfucius Code Agent (CCA)を紹介した。
CCAはConfucius SDKの上に構築されている。
さらに,エージェント構成の合成,評価,洗練を自動化するメタエージェントを導入する。
論文 参考訳(メタデータ) (2025-12-11T08:05:58Z) - AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning [82.42421823672954]
AgentCPM-GUIは、堅牢で効率的なオンデバイスGUIインタラクションのために構築されている。
私たちのトレーニングパイプラインには、知覚を高めるためのグラウンドアウェア事前トレーニングが含まれています。
AgentCPM-GUIは5つの公開ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-02T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。