論文の概要: VISUALSKILL: Multimodal Skills for Computer-Use Agents
- arxiv url: http://arxiv.org/abs/2606.18448v1
- Date: Tue, 16 Jun 2026 19:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.87819
- Title: VISUALSKILL: Multimodal Skills for Computer-Use Agents
- Title(参考訳): VISUALSKILL:コンピュータエージェントのマルチモーダルスキル
- Authors: Ziyan Jiang, Li An, Yujian Liu, Jiabao Ji, Qiucheng Wu, Jacob Andreas, Yang Zhang, Shiyu Chang,
- Abstract要約: ターゲットアプリケーション毎に調整された階層型マルチモーダルスキルであるVISUALSKILLを提案する。
著者によるドキュメンテーションとライブアプリケーションUI探索を組み合わせた2段階のパイプラインで、それぞれのスキルを構築します。
2つのCUAベンチマークでは、Claude Code CLIエージェントがClaude Opus 4.6によって支援され、VISUALSKILLで平均スコア0.456に達した。
- 参考スコア(独自算出の注目度): 63.79539541125141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computer-use agents (CUAs) approach human-level performance on standardised benchmarks but still struggle on long-horizon tasks and unseen software. Existing skill libraries address this with reusable skills, but represent the skill artifact as text only, despite the visual nature of GUI interaction. We propose VISUALSKILL: a hierarchical multimodal skill, tailored to each target application and organised as a central index over per-topic files, which the agent consumes through a load_topic MCP tool that fetches the relevant topic's text and figures on demand. We construct each skill with a two-stage pipeline that combines authored documentation with live-application UI exploration. On two CUA benchmarks, CUA-World and OSExpert-Eval, a Claude Code CLI agent backed by Claude Opus 4.6 reaches an average score of 0.456 with VISUALSKILL, a +15.3 point absolute lift over the no-skill baseline (0.303). Against a matched text-only skill that is generated from the same source content and differs from VISUALSKILL only in modality, VISUALSKILL yields a further +8.3 point absolute gain over the matched text-only skill (0.373 vs. 0.456), providing direct evidence that retaining visual figures in the skill artifact, rather than verbalizing them away, helps the agent both identify UI elements and verify workflow state after each action. Our code is available at https://github.com/XMHZZ2018/VisualSkills.
- Abstract(参考訳): CUA(Computer-use Agent)は、標準化されたベンチマークで人間レベルのパフォーマンスにアプローチするが、長期的なタスクや見当たらないソフトウェアに苦戦している。
既存のスキルライブラリは再利用可能なスキルでこの問題に対処するが、GUIインタラクションの視覚的性質にもかかわらず、スキルアーティファクトをテキストのみとして表現する。
本稿では,各ターゲットアプリケーションに合わせた階層型マルチモーダルスキルであるVISUALSKILLを提案する。
著者によるドキュメンテーションとライブアプリケーションUI探索を組み合わせた2段階のパイプラインで、それぞれのスキルを構築します。
CUA-WorldとOSExpert-Evalの2つのベンチマークでは、Claude Opus 4.6が支援するClaude Code CLIエージェントがVISUALSKILLで平均スコア0.456に達した。
VISUALSKILLは、同じソースコンテンツから生成され、モダリティでのみ異なるマッチしたテキストのみのスキルに対して、マッチしたテキストのみのスキル(0.373対0.456)よりもさらに+8.3ポイントの絶対的なゲインを得る(0.373対0.456)。
私たちのコードはhttps://github.com/XMHZ2018/VisualSkills.comで利用可能です。
関連論文リスト
- Beyond Domains: Reusing Web Skills via Transferable Interaction Patterns [68.0603867264595]
SkillMigratorは再利用可能なWebスキルを学習し、特定の要素参照ではなくレイアウト構造にマッチしてサイト間でそれらを転送する。
WebArenaとMind2Webの両方において、成功軌道上の平均LCM-アクション数を、一致した成功速度で8-10%削減する。
論文 参考訳(メタデータ) (2026-06-16T08:04:35Z) - VISTA: An End-to-End Benchmark for Visual Spec-to-Web-App Coding Agents [25.141059096863255]
VISTAは、LLMベースのエージェントのエンドツーエンドのWebアプリケーション生成機能を評価するためのベンチマークである。
視覚的/構造的忠実度とスタック制約の2つの軸に沿って変化する5つのプロンプト情報条件を定義する。
ベンチマークの各ページは、インタラクティブなUIコンポーネントと約3つの視覚的アンカーポイントで手動で注釈付けされる。
論文 参考訳(メタデータ) (2026-05-22T20:29:12Z) - SkillGraph: Skill-Augmented Reinforcement Learning for Agents via Evolving Skill Graphs [70.1970574147839]
有向グラフのノードとして再利用可能なスキルを表現するフレームワークであるSKILLGRAPHを提案する。
SKILLGRAPHは個々のスキルだけでなく、多段階意思決定をガイドできる順序付きスキルサブグラフも取得する。
実験により,SKILLGRAPHはメモリ拡張RL法に対して最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2026-05-12T12:21:49Z) - SkillSieve: A Hierarchical Triage Framework for Detecting Malicious AI Agent Skills [0.0]
SkillSieveは3層検出フレームワークで、必要に応じてより深く分析する。
400スキルのラベル付きベンチマークでは、SkillSieveは0.800 F1を達成し、ClawVetの0.421を上回った。
論文 参考訳(メタデータ) (2026-04-08T00:58:48Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - Organizing, Orchestrating, and Benchmarking Agent Skills at Ecosystem Scale [28.43462779191672]
AgentSkillOSは、スキル選択、オーケストレーション、エコシステムレベルの管理のための原則化されたフレームワークである。
AgentSkillOSには2つのステージがある。 (i) スキルを機能ツリーに整理する管理スキル。
(ii) DAGベースのパイプラインを通じて複数のスキルを検索し、オーケストレーションし、実行するタスクの解決。
論文 参考訳(メタデータ) (2026-03-02T18:46:47Z) - OSWorld-MCP: Benchmarking MCP Tool Invocation In Computer-Use Agents [49.34040731113563]
我々は,コンピュータ利用エージェントのツール実行,GUI操作,意思決定能力を評価するための,最初の総合的かつ公正なベンチマークであるOSWorld-MCPを提案する。
厳密な手作業による検証は158の高品質なツールをもたらし、それぞれが正しい機能、実用性、汎用性を検証します。
OSWorld-MCPはマルチモーダルエージェントの理解を深め、複雑なツール支援環境でのパフォーマンスを評価するための新しい標準を設定している。
論文 参考訳(メタデータ) (2025-10-28T15:56:36Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - See and Think: Embodied Agent in Virtual Environment [12.801720916220823]
大規模言語モデル(LLM)は、いくつかのオープンワールドタスクにおいて印象的な進歩を遂げた。
本稿では,Minecraft仮想環境における包括的で視覚的なエンボディエージェントであるSTEVEを提案する。
論文 参考訳(メタデータ) (2023-11-26T06:38:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。