論文の概要: ART-VS: Adaptive Resolution Tiling for Vision Transformer Visual Servoing
- arxiv url: http://arxiv.org/abs/2606.19089v1
- Date: Wed, 17 Jun 2026 13:58:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.189613
- Title: ART-VS: Adaptive Resolution Tiling for Vision Transformer Visual Servoing
- Title(参考訳): ART-VS:視覚変換器のビジュアルサーボのための適応分解能タイリング
- Authors: Alessandro Scherl, Bernhard Neuberger, Simon Schwaiger, David Mulero-Pérez, Lucas Muster, Jose Garcia-Rodriguez,
- Abstract要約: 自己監督型ビジョントランスフォーマー(ViT)機能によるビジュアルサーボは、強力な一般化を伴うトレーニング不要なロボット位置決めを可能にする。
本稿では,特徴の粒度をサーボの進行に適応させる2相手法ART-VSを提案する。
ART-VSを3つのViTバックボーンで実証し、実世界のカテゴリレベルの未確認オブジェクトの把握を実証する。
- 参考スコア(独自算出の注目度): 35.922854646596434
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual servoing with self-supervised Vision Transformer (ViT) features enables training-free robotic positioning with strong generalization, but faces a fundamental trade-off between robustness and precision. Coarse patch-level descriptors provide stable correspondences yet limit positioning accuracy. Increasing image resolution improves precision but yields only marginal robustness gains - under perturbation, high-resolution processing improves convergence success rate from 76.6% to just 81.0% despite 12x more ViT patches. Therefore, we propose Adaptive Resolution Tiling Visual Servoing (ART-VS), a two-phase method that adapts feature granularity to servoing progress: a coarse phase at native ViT resolution for stable alignment, then a tiled high-resolution phase that restricts matching to local neighborhoods improving positioning accuracy. Without any task-specific training, ART-VS achieves 95.4% convergence under perturbation, outperforming standard and full-resolution ViT-based servoing by 18.8 and 14.4 percentage points. Over the former it reduces positioning error by 53%, while running at over 10x higher speed and 27% lower VRAM than the latter. We validate ART-VS across three ViT backbones and demonstrate real-world category-level grasping of unseen object instances, achieving 95/100 on transparent bottles and 98/100 on shoes. Code available under https://art-vs.github.io/.
- Abstract(参考訳): 自己監督型ビジョントランスフォーマー(ViT)機能によるビジュアルサーボは、強力な一般化を伴うトレーニング不要なロボットの位置決めを可能にするが、堅牢性と精度の基本的なトレードオフに直面している。
粗いパッチレベルの記述子は安定した対応を提供するが、位置決め精度は制限する。
画像解像度の増大は精度を向上するが、限界的な堅牢性の向上しか得られない - 摂動下では、高解像度処理は12倍のViTパッチにもかかわらず、収束成功率を76.6%から81.0%に改善する。
そこで,本研究では,特徴粒度をサーボの進行に適応させる2段階の手法であるアダプティブ・レゾリューション・タイリング・ビジュアルサーボ法 (ART-VS) を提案する。
タスク固有のトレーニングがなければ、ART-VSは摂動下で95.4%の収束を達成し、18.8ポイントと14.4ポイントの精度でVTベースのサーボを行う。
前者よりも10倍以上高速で、後者よりも27%低い速度で動作しながら、位置決め誤差を53%削減する。
ART-VSを3つのViTバックボーンで検証し,透明なボトルで95/100,靴で98/100を達成した。
https://art-vs.github.io/で公開されている。
関連論文リスト
- Understanding vision transformer robustness through the lens of out-of-distribution detection [59.72757235382676]
量子化はメモリと推論コストを削減し、性能損失のリスクを負う。
本稿では, 量子化小型可変ビジョントランス (DeiT, DeiT3, ViT) の共通アウト・オブ・ディストリビューション (OOD) データセットにおける挙動について検討する。
論文 参考訳(メタデータ) (2026-02-01T22:00:59Z) - Extreme Model Compression for Edge Vision-Language Models: Sparse Temporal Token Fusion and Adaptive Neural Compression [0.0]
2つの適応圧縮技術は、アルゴリズムの革新とハードウェア対応の最適化を統合するために提案されている。
イベントベースの視覚タスクでは、STTFは平均トークン数を84%削減する。
ANCは低モーションシーンでFLOPを最大90%カットする。
論文 参考訳(メタデータ) (2025-11-23T15:43:00Z) - ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - CP-ViT: Cascade Vision Transformer Pruning via Progressive Sparsity
Prediction [16.578899848650675]
ViT(Vision Transformer)は、様々なコンピュータビジョンアプリケーションにおいて、競合する精度を達成したが、その計算コストは、リソース制限されたモバイルデバイスへのデプロイを妨げる。
本稿では, CP-ViTモデルにおいて, 精度損失を最小化しつつ, 計算冗長性を抑えるために, 動的かつ段階的に間隔を予測し, CP-ViTと呼ばれるカスケード刈り込みフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T08:15:14Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。