論文の概要: VTOS: Learning to Orchestrate Vision Tools by Co-Searching Solutions and Observers
- arxiv url: http://arxiv.org/abs/2606.20728v1
- Date: Wed, 17 Jun 2026 04:52:22 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:21:13.61167
- Title: VTOS: Learning to Orchestrate Vision Tools by Co-Searching Solutions and Observers
- Title(参考訳): VTOS: 共同検索ソリューションとオブザーバによるビジョンツールのオーケストレーションを学ぶ
- Authors: Jinchao Ge, Lingqiao Liu, Shuwen Zhao, Lei Wang,
- Abstract要約: 本稿では,共同ソリューションによる視覚的ツールオーケストレーションのためのフレームワークであるVTOSを紹介する。
我々は,LVIS-Count の高密度オブジェクトカウントと PlantSeg-OOD のゼロショットプラントリリースセグメンテーションの2つのケーススタディにより,VTOS の評価を行った。
- 参考スコア(独自算出の注目度): 23.939374004639756
- License:
- Abstract: Vision foundation tools such as open-vocabulary detectors, segmentation models, and post-processing operators are powerful building blocks for computer vision, but their effectiveness depends heavily on how they are orchestrated: which tools are used, in what order, with what parameters, and under what visual conditions. Existing visual-programming agents typically generate a fixed solution pipeline, making them brittle under dense objects, occlusion, small targets, and domain shift. We introduce VTOS (Vision Tools Orchestration Search), a framework for adaptive visual tool orchestration through joint solution--observer search. VTOS co-searches executable solution programs that compose vision tools such as Grounding DINO, SAM, NMS, and slice-and-detect, together with observer programs that diagnose candidate solutions, identify failure modes, and generate actionable feedback. These observations are accumulated in a shared VisionThoughts knowledge base to guide subsequent search. We evaluate VTOS through two case studies: dense object counting on LVIS-Count and zero-shot plant-disease segmentation on PlantSeg-OOD, which stress different orchestration challenges including threshold calibration, NMS, slicing, mask refinement, and domain generalization. Across both tasks, VTOS outperforms static tool pipelines and agentic visual-programming baselines, showing that co-searching solutions and observers is an effective strategy for adapting vision tools to challenging computer vision tasks.
- Abstract(参考訳): オープンボキャブラリ検出器、セグメンテーションモデル、後処理オペレータといったビジョン基盤ツールは、コンピュータビジョンのための強力なビルディングブロックであるが、その有効性は、どのツールが、どの順番で、どのパラメータで、どのビジュアル条件で、どのツールが使用されるかに大きく依存する。
既存のビジュアルプログラミングエージェントは、通常、固定されたソリューションパイプラインを生成し、密集したオブジェクト、閉塞、小さなターゲット、ドメインシフトの下で脆くする。
VTOS(Vision Tools Orchestration Search)は,共同ソリューションによる適応型ビジュアルツールオーケストレーションのためのフレームワークである。
VTOSは、Grounding DINO、SAM、NMS、Slice-and-detectなどのビジョンツールを構成する実行可能なソリューションプログラムと、候補ソリューションの診断、障害モードの識別、アクション可能なフィードバックを生成するオブザーバプログラムを共同で研究している。
これらの観測はVisionThoughtsの知識ベースに蓄積され、その後の探索をガイドする。
我々は, LVIS-Count を用いた高密度オブジェクトカウントと, しきい値校正, NMS, スライシング, マスクリファインメント, ドメイン一般化など, さまざまなオーケストレーション課題に重点を置いているプラントSeg-OOD のゼロショット植物分離セグメンテーションという2つのケーススタディを通じて, VTOS の評価を行った。
どちらのタスクでも、VTOSは静的ツールパイプラインやエージェントによるビジュアルプログラミングのベースラインよりも優れており、共同調査ソリューションとオブザーバは、コンピュータビジョンタスクに挑戦するビジョンツールに適応するための効果的な戦略であることを示している。
関連論文リスト
- MEDVISTAGYM: A Scalable Training Environment for Thinking with Medical Images via Tool-Integrated Reinforcement Learning [25.75780053067891]
視覚言語モデル(VLM)は、一般的な画像理解において強い性能を発揮するが、医用画像について考えるのに苦労する。
我々はMedVistaGymを紹介した。MedVistaGymはスケーラブルでインタラクティブなトレーニング環境で、医用画像解析のためのツール統合視覚推論のインセンティブを与える。
論文 参考訳(メタデータ) (2026-01-12T00:11:10Z) - Scaling Agentic Reinforcement Learning for Tool-Integrated Reasoning in VLMs [76.47326680870783]
VISTA-Gymは視覚言語モデル(VLM)におけるツール統合視覚推論能力のインセンティブ化のためのトレーニング環境である。
VISTA-Gymはビジュアルツールの標準化されたインタフェースで様々な実世界のマルチモーダル推論タスクを統合する。
VISTA-R1-8Bは、11の公開推論集約VQAベンチマークにおいて、同様のサイズで最先端のベースラインを9.51%-18.72%上回ることを示す。
論文 参考訳(メタデータ) (2025-11-24T22:58:26Z) - Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - AI-driven visual monitoring of industrial assembly tasks [5.127749035113618]
ViMATは、アセンブリタスクをリアルタイムで視覚的に監視するための、AI駆動の新しいシステムである。
観測されたアセンブリの状態と以前のタスク知識に基づいて、最も可能性が高いアクションを推測する。
レゴ部品の交換と水圧プレス金型の再構成を含む2つの組立作業におけるViMATの有効性を検証した。
論文 参考訳(メタデータ) (2025-06-18T09:08:42Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。