論文の概要: DiffusionVS: A Generative Framework for Robust Visual Servoing Based on Diffusion Policy
- arxiv url: http://arxiv.org/abs/2606.19397v1
- Date: Wed, 17 Jun 2026 08:06:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.442005
- Title: DiffusionVS: A Generative Framework for Robust Visual Servoing Based on Diffusion Policy
- Title(参考訳): DiffusionVS: 拡散ポリシーに基づくロバストなビジュアルサーボのための生成フレームワーク
- Authors: Hongkang Cui, Rui He, Haoyao Chen,
- Abstract要約: ビジュアルサーボはロボット操作とナビゲーションの基本的な技術である。
拡散ポリシは、アクションシーケンスを予測して時間的一貫性を維持し、暗黙のデータ拡張を通じて堅牢性を向上させる。
オンライントレーニングパラダイムが採用され、インタラクティブなエクスペリエンス収集を通じてトレーニングデータの多様性を継続的に拡張する。
- 参考スコア(独自算出の注目度): 10.755467302335617
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual servoing is a fundamental technique in robotic manipulation and navigation. Regression-based visual servoing frequently experiences trajectory jitter as a result of noise-sensitive single-step mappings and the accumulation of errors during distribution shifts. In contrast, Diffusion Policy maintains temporal consistency by predicting action sequences and improves robustness through implicit data augmentation. This paper presents a novel diffusion-based servoing method. Based on Diffusion Policy, the proposed approach uses normalized image coordinates of observed tag corners as input and generates camera velocity through conditional denoising. To overcome the generalization limitations of models trained on static datasets, an online training paradigm is adopted, continuously expanding the diversity of training data through interactive experience collection. This strategy substantially enhances both the performance and generalization capability of the model. Comprehensive simulations and real-world experiments demonstrate the effectiveness of the proposed method, achieving success rates of nearly 100\% in simulation and 93\% in physical experiments. Beyond the specific pipeline, we further validate the generality of the diffusion mechanism. Experiments show that existing visual servoing networks consistently achieve improved performance when integrated with our diffusion-based module. These results indicate that the proposed strategy possesses broad applicability and can enhance various visual servoing systems beyond the specific architecture presented here.
- Abstract(参考訳): ビジュアルサーボはロボット操作とナビゲーションの基本的な技術である。
回帰に基づく視覚サーボは、ノイズに敏感な単一ステップマッピングと分布シフト中のエラーの蓄積の結果、しばしば軌道ジッタを経験する。
対照的にDiffusion Policyは、アクションシーケンスを予測することで時間的一貫性を維持し、暗黙のデータ拡張によって堅牢性を向上させる。
本稿では,新しい拡散型サーボ法を提案する。
拡散ポリシに基づいて,観測されたタグコーナーの正規化画像座標を入力とし,条件付きデノジングによりカメラ速度を生成する。
静的データセット上でトレーニングされたモデルの一般化制限を克服するため、インタラクティブなエクスペリエンス収集を通じてトレーニングデータの多様性を継続的に拡大するオンライントレーニングパラダイムが採用されている。
この戦略は、モデルの性能と一般化能力の両方を大幅に強化する。
シミュレーションと実世界の実験により,提案手法の有効性を実証し,シミュレーションで100倍近く,物理実験で93倍近い成功率を達成した。
特定のパイプラインを超えて、拡散機構の一般性をさらに検証する。
実験により、既存のビジュアルサーボネットワークは、拡散ベースのモジュールと統合した場合、常に改善された性能を実現することが示された。
これらの結果から,提案手法は広い適用性を有し,具体的なアーキテクチャを超える様々な視覚サーボシステムを拡張可能であることが示唆された。
関連論文リスト
- MoireMix: A Formula-Based Data Augmentation for Improving Image Classification Robustness [37.507208770129296]
本稿では, クローズドフォームの数学的定式化を用いて, フライ時のモアレテクスチャを手続き的に生成する軽量化手法を提案する。
提案手法は,ImageNet-C, ImageNet-R, および逆数ベンチマークを含む複数のベンチマーク間の堅牢性を一貫して改善する。
これらの結果から,解析的干渉パターンはデータ駆動生成法に代わる実用的で効率的な代替手段となることが示唆された。
論文 参考訳(メタデータ) (2026-03-26T07:29:44Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Align-Then-stEer: Adapting the Vision-Language Action Models through Unified Latent Guidance [63.33213516925946]
textbfAlign-Then-stEer(textttATE)は,新しいデータ効率,プラグアンドプレイ適応フレームワークである。
我々の研究は、新しいロボットプラットフォームやタスクにVLAモデルをデプロイする実用性を大幅に向上させる、汎用的で軽量なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-02T07:51:59Z) - Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。
本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文 参考訳(メタデータ) (2025-05-22T10:01:59Z) - InstaRevive: One-Step Image Enhancement via Dynamic Score Matching [66.97989469865828]
InstaReviveは、強力な生成能力を活用するためにスコアベースの拡散蒸留を利用する画像強調フレームワークである。
私たちのフレームワークは、さまざまな課題やデータセットにまたがって、高品質で視覚的に魅力的な結果を提供します。
論文 参考訳(メタデータ) (2025-04-22T01:19:53Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Crossway Diffusion: Improving Diffusion-based Visuomotor Policy via
Self-supervised Learning [42.009856923352864]
拡散モデルは、シーケンス・モデリング方式で行動的クローニングに採用されている。
拡散に基づくビジュモータポリシー学習の簡易かつ効果的な手法であるクロスウェイ拡散を提案する。
シミュレーションおよび実世界のロボット作業におけるクロスウェイ拡散の有効性を実証した。
論文 参考訳(メタデータ) (2023-07-04T17:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。