論文の概要: Signal-Driven Observation for Long-Horizon Web Agents
- arxiv url: http://arxiv.org/abs/2606.06708v1
- Date: Thu, 04 Jun 2026 20:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.441597
- Title: Signal-Driven Observation for Long-Horizon Web Agents
- Title(参考訳): 長距離Webエージェントの信号駆動観察
- Authors: Shubham Gaur, Ian Lane,
- Abstract要約: この観察周波数と行動周波数の結合はアーキテクチャ上の誤りであると主張する。
我々は、SDO(Signal-Driven Observation)を提案する。これは、専用のサブコールで完全なDOMを読み込むが、タスク関連要素のみを返す。
我々は、SDOが導入するオープンな問題の概要と、Webエージェント設計における中核的なアーキテクチャ上の決定として観察圧縮を扱うようコミュニティに呼びかける。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web agents operating over long horizons ingest raw DOM and accessibility trees -- routinely tens of thousands of tokens -- at every action step, causing progressive context degradation that erodes reasoning well before tasks complete. We argue that this coupling of observation frequency to action frequency is an architectural mistake. Drawing on the insight from Recursive Language Models that querying a document outperforms reading it wholesale, we propose Signal-Driven Observation (SDO): a dedicated sub-call reads the full DOM but returns only task-relevant elements and their selectors, and is re-invoked only when a lightweight signal detector fires -- triggered by URL transitions, newly visible interactive elements, action failures, or exogenous browser events. We outline the open problems SDO introduces and call on the community to treat observation compression as a core architectural decision in web agent design.
- Abstract(参考訳): 長い水平線上で動作しているWebエージェントは、すべてのアクションステップで、生のDOMとアクセシビリティツリー(通常数万のトークン)を取り込みます。
この観察周波数と行動周波数の結合はアーキテクチャ上の誤りであると主張する。
Recursive Language Modelsの洞察に基づいて、ドキュメントを問合せすると、その全文を読み取る(SDO): 専用のサブコールで、完全なDOMを読み込むが、タスク関連要素とセレクタのみを返す。
我々は、SDOが導入するオープンな問題の概要と、Webエージェント設計における中核的なアーキテクチャ上の決定として観察圧縮を扱うようコミュニティに呼びかける。
関連論文リスト
- TIDE: Proactive Multi-Problem Discovery via Template-Guided Iteration [74.97459526627395]
2つの補完機構を備えたテンプレート誘導反復フレームワークであるTIDEを紹介する。
我々は,すでに発見されているものを条件付けながら,ラウンド毎に少数の候補を探索する反復探索を提案する。
単一ショットと並列マルチエージェントのベースラインをタスクカバレッジ,識別,解像度で比較すると,大幅に向上した。
論文 参考訳(メタデータ) (2026-06-03T11:23:08Z) - Cookie-Bench: Continuous On-screen Key Interaction Evaluation for Web Generation [24.920344869492066]
textbfdatanameは11ドメイン、54リーフ、1000キューのWebDevベンチマークで、静的表現とインタラクティブアプリケーションの両方にまたがる。
textbfframenameはフラヴェルのメタ認知モニタリングに基づいており、3段階にわたる判断から証拠の蓄積を分離している。
論文 参考訳(メタデータ) (2026-05-28T14:30:33Z) - VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning [44.82593834510368]
Visual Retrieval-Augmented Generation (VRAG)は、視覚的にリッチなドキュメントの検索と推論を可能にする。
既存のエージェントVRAGは、Long Horizonsのビジュアルエビデンス・スパシティと検索ドリフトの2つの重要なボトルネックに直面している。
統合された単一エージェントフレームワークであるVISOR(Visual Retrieval-Augmented Generation via Iterative Search and Over-Horizon Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-04-10T17:25:34Z) - When Only the Final Text Survives: Implicit Execution Tracing for Multi-Agent Attribution [10.973058523304042]
IET(Implicit Execution Tracing)は、メタデータに依存しないフレームワークで、生成したテキストから直接トークンレベルの属性を作成できる。
生成中、エージェント固有のキー付き信号がトークン分布に埋め込まれ、秘密鍵でのみ検出可能な自己記述実行トレースに変換される。
検出時にエージェントハンドオーバポイントを特定し、インタラクショングラフを再構築する。
論文 参考訳(メタデータ) (2026-03-18T07:34:51Z) - RefAtomNet++: Advancing Referring Atomic Video Action Recognition using Semantic Retrieval based Multi-Trajectory Mamba [86.47790050206306]
RefAVA++は290万フレームと75.1kの注釈付き人で構成される。
RefAtomNet++は、多階層的なセマンティックアラインなクロスアテンションメカニズムを通じて、クロスモーダルトークンアグリゲーションを前進させる。
実験によると、RefAtomNet++は新しい最先端の結果を確立している。
論文 参考訳(メタデータ) (2025-10-18T10:41:19Z) - LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding [37.12229829548839]
レイアウト対応動的RAGフレームワークであるLAD-RAGを提案する。
LAD-RAGは、レイアウト構造とページ間の依存関係をキャプチャするシンボリック文書グラフを構築する。
MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの実験は、LAD-RAGが検索を改善し、トップkチューニングなしで平均90%以上の完全リコールを達成することを示した。
論文 参考訳(メタデータ) (2025-10-08T17:02:04Z) - From Objects to Events: Unlocking Complex Visual Understanding in Object Detectors via LLM-guided Symbolic Reasoning [71.41062111470414]
現在のオブジェクト検出器は、エンティティのローカライゼーションと分類において優れているが、イベント認識機能には固有の制限がある。
本稿では,単なるオブジェクト認識以上の標準オブジェクト検出能力を,複雑なイベント理解に拡張する新しいフレームワークを提案する。
私たちの重要なイノベーションは、高価なタスク固有のトレーニングを必要とせずに、オブジェクト検出とイベント理解のセマンティックなギャップを埋めることです。
論文 参考訳(メタデータ) (2025-02-09T10:30:54Z) - DVIS-DAQ: Improving Video Segmentation via Dynamic Anchor Queries [60.09774333024783]
動的アンカークエリ(DAQ)を導入し、アンカーとターゲットクエリ間の遷移ギャップを短くする。
また,クエリレベルのオブジェクトEmergence and Disappearance Simulation(EDS)戦略を導入する。
実験により、DVIS-DAQは5つの主流ビデオセグメンテーションベンチマーク上で、新しい最先端(SOTA)性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-29T17:58:50Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。