論文の概要: Syll: Open-Source Personal Automation with Cross-Surface Execution
- arxiv url: http://arxiv.org/abs/2606.07594v1
- Date: Thu, 28 May 2026 17:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.757051
- Title: Syll: Open-Source Personal Automation with Cross-Surface Execution
- Title(参考訳): Syll: クロスサーフェス実行によるオープンソースのパーソナルオートメーション
- Authors: Bo Zhang, Borui Zhang, Chenghao Jiang, Minglei Shi, Xiaofeng Wang, Zheng Zhu, Jie Zhou, Jiwen Lu,
- Abstract要約: オープンソースで自己ホスト型マルチモーダルエージェントであるSyllを紹介します。
Syllは、MPP/APIツール、CLI実行、モジュールランタイムでのビジュアルコントロールを統合する。
私たちの実装は、Adobe Photoshop、Adobe Audition、Stardew Valley、Finderなどのプロダクションデスクトップアプリケーションで検証されています。
- 参考スコア(独自算出の注目度): 73.77463150026068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personal AI agents must increasingly operate across APIs, shells, web surfaces, and desktop GUIs, yet many systems remain tuned to a single interface and offer limited support for user teaching and auditability. We present Syll, an open-source, self-hosted multimodal agent harness that unifies MCP/API tools, CLI execution, and visual GUI control in a modular runtime, enabling agents to coordinate computer use across heterogeneous interfaces while streamlining how users and agents exchange information. At the core of Syll is a bidirectional user-agent interaction layer: users teach procedures through direct demonstration, which Syll compiles into reusable skills; agent execution is translated back into multimodal evidence -- logs, keyframes, and approval checkpoints -- for inspection and control. Syll further externalizes memory, skills, routines, and governance as editable local artifacts, supporting straightforward inspection, extension, and downstream development. Our implementation has been validated on production desktop applications including Adobe Photoshop, Adobe Audition, Stardew Valley, macOS Finder and others. We report mechanism-oriented studies that validate multimodal routing, teachable GUI replay, and persistent local artifacts. We hope Syll can serve as a practical open-source foundation for personal automation that users can teach, inspect, and continuously extend.
- Abstract(参考訳): パーソナルAIエージェントは、API、シェル、Webサーフェス、デスクトップGUIをまたいで操作する必要があるが、多くのシステムは単一のインターフェースに調整され、ユーザ教育と監査性に制限がある。
我々は,MPP/APIツール,CLI実行,GUIコントロールをモジュールランタイムに統合した,オープンソースで自己ホスト型のマルチモーダルエージェントであるSyllを紹介した。
Syllの中核は双方向のユーザエージェントインタラクション層である。ユーザは直接デモを通じて手順を教える。Syllは再利用可能なスキルにコンパイルする。エージェントの実行は、検査と制御のためにマルチモーダルなエビデンス(ログ、キーフレーム、承認チェックポイント)に変換される。
Syllはさらに、メモリ、スキル、ルーチン、ガバナンスを編集可能なローカルアーティファクトとして外部化し、簡単なインスペクション、拡張、下流開発をサポートする。
私たちの実装は、Adobe Photoshop、Adobe Audition、Stardew Valley、macOS Finderなど、プロダクションデスクトップアプリケーションで検証されています。
マルチモーダルルーティング,GUIリプレイ,永続的なローカルアーティファクトの検証を行うメカニズム指向の研究について報告する。
Syllがパーソナルオートメーションのための実用的なオープンソース基盤になり、ユーザーが教え、検査し、継続的に拡張できることを願っている。
関連論文リスト
- AgentSPEX: An Agent SPecification and EXecution Language [17.439531520677594]
本稿では,明示的な制御フローとモジュール構造を持つエージェントフレームワークであるAgentSPEXを紹介する。
AgentSPEXは、型付きステップ、分岐とループ、並列実行、再利用可能なサブモジュール、明示的な状態管理をサポートする。
我々は、AgentSPEXが一般的なエージェントフレームワークよりも解釈可能でアクセシブルなワークフローオーサリングパラダイムを提供するというユーザスタディを通して示す。
論文 参考訳(メタデータ) (2026-04-14T23:16:25Z) - AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem [39.8098595660156]
本稿では,AgentOS(Personal Agent Operating System)の新たなパラダイムを提案する。
AgentOSでは、従来のGUIデスクトップは、統一された自然言語や音声ポータルを中心としたNUI(Natural User Interface)に置き換えられている。
システムコアは、ユーザの意図を解釈し、タスクを分解し、複数のエージェントをコーディネートするエージェントカーネルとなる。
論文 参考訳(メタデータ) (2026-03-09T21:13:52Z) - Computer-Use Agents as Judges for Generative User Interface [142.75272102498806]
ComputerUse Agents (CUA) は、グラフィカルユーザインタフェース (GUI) を通じてデジタル環境を自律的に操作する能力が高まっている。
ほとんどのGUIは、人間が効率的にタスクを実行するのに不要な人間指向の動作を採用するために設計されている。
CUA は Coder でGUI の自動設計を支援することができるだろうか?
論文 参考訳(メタデータ) (2025-11-19T16:00:02Z) - GUISpector: An MLLM Agent Framework for Automated Verification of Natural Language Requirements in GUI Prototypes [58.197090145723735]
本稿では,GUIプロトタイプにおけるNL要求の自動検証にマルチモーダル(M)LLMエージェントを利用する新しいフレームワークを提案する。
GuiSpectorはエージェントの検証プロセスから詳細なNLフィードバックを抽出し、開発者に実行可能な洞察を提供する。
本稿では,これらの機能を統合化し,検証実行の監視,エージェントの合理性検査,エンドツーエンドの要件検証プロセスの管理を行うインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-06T13:15:24Z) - UFO2: The Desktop AgentOS [60.317812905300336]
UFO2はWindowsデスクトップ用のマルチエージェントAgentOSで、実用的なシステムレベルの自動化に発展している。
我々は、20以上の現実世界のWindowsアプリケーションに対してUFO2を評価し、従来のCUAよりもロバスト性および実行精度を大幅に改善した。
我々の結果は、ディープOSの統合によって、信頼性の高いユーザ指向のデスクトップ自動化へのスケーラブルな道が開けることを示している。
論文 参考訳(メタデータ) (2025-04-20T13:04:43Z) - AppAgent v2: Advanced Agent for Flexible Mobile Interactions [57.98933460388985]
本研究は,モバイル機器向けの新しいLLMベースのマルチモーダルエージェントフレームワークを提案する。
我々のエージェントは、様々なアプリケーションにまたがる適応性を高めるフレキシブルなアクション空間を構築する。
本研究は,実世界のシナリオにおいて,フレームワークの優れた性能を実証し,その有効性を確認した。
論文 参考訳(メタデータ) (2024-08-05T06:31:39Z) - ReDel: A Toolkit for LLM-Powered Recursive Multi-Agent Systems [39.85101344037394]
ReDelはマルチエージェントシステムを構築するためのツールキットである。
カスタムツールの使用、デリゲートスキーム、イベントベースのロギング、インタラクティブなリプレイをサポートする。
私たちのコード、ドキュメンテーション、およびPyPIパッケージはオープンソースで、MITライセンス下で自由に使用できます。
論文 参考訳(メタデータ) (2024-08-05T05:43:23Z) - You Only Look at Screens: Multimodal Chain-of-Action Agents [37.118034745972956]
Auto-GUIは、インターフェースと直接対話するマルチモーダルソリューションである。
そこで本研究では,エージェントが実行すべきアクションを決定するためのチェーン・オブ・アクション手法を提案する。
我々は,30$Kのユニークな命令を持つ新しいデバイス制御ベンチマークAITWに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-09-20T16:12:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。