論文の概要: TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation
- arxiv url: http://arxiv.org/abs/2606.09337v3
- Date: Tue, 16 Jun 2026 02:41:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.433664
- Title: TORL-VLA: Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation
- Title(参考訳): TORL-VLA:Tactile Guided Online Reinforcement Learning for Contact-Rich Manipulation
- Authors: Huaihang Zheng, Yi Yang, Kai Ma, Shenglin Xu, Tian Xie, Guozheng Li, Xiangyu Wang, Yiren Ma, Si Liu, Yinian Mao, Baoxu Liu,
- Abstract要約: TORL-VLAは、触覚フィードバックとポリシーの強化を組み合わせた、コンタクトリッチな操作のためのオンライン強化学習フレームワークである。
本手法では, 触覚由来のレンチ認識型VLAを用いて, 参照動作と将来のレンチシーケンスを予測する。
探索的政策と人為的介入の混成データから学習を安定させるために,介入検閲された評論家を紹介する。
- 参考スコア(独自算出の注目度): 24.661831588991898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have become a powerful framework for robotic manipulation, and recent studies have introduced tactile or force feedback into VLAs to address contact-rich tasks. However, these models are typically deployed as offline policies. When contact conditions shift from the training distribution, the policy cannot perform online adaptation, leading to problems such as inappropriate contact forces and inefficient retries. Therefore, we propose TORL-VLA, a tactile-guided online reinforcement learning framework that couples tactile feedback with policy refinement for contact-rich manipulation. Our method introduces a tactile-derived wrench-aware VLA to predict reference actions and future wrench sequences, while a lightweight online RL module is used to refine the reference actions. To stabilize learning from mixed exploratory policy-generated and human-intervention data, we introduce an intervention-censored critic that prevents post-intervention success from being wrongly credited to policy-generated actions preceding intervention. Real-robot experiments on long-horizon contact-rich tasks, including latch manipulation, coffee-cup placement, and egg handling, show that TORL-VLA improves success rates at both subtask and full-task levels, as well as time-bounded execution efficiency over strong baselines. Project page: https://torl-vla.github.io/
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作の強力なフレームワークとなり、最近の研究では、接触に富むタスクに対処するために、VLAに触覚や強制フィードバックを導入している。
しかしながら、これらのモデルは一般的にオフラインポリシーとしてデプロイされる。
不適切な接触力や非効率な再試行といった問題に繋がる。
そこで本研究では,触覚フィードバックを接触リッチな操作のためのポリシー改善と組み合わせた触覚誘導型オンライン強化学習フレームワークTORL-VLAを提案する。
本手法では,参照動作と将来のレンチシーケンスを予測するために触覚由来レンチ対応VLAを導入し,軽量なオンラインRLモジュールを用いて参照動作を洗練する。
本研究では,介入前の政策生成行動に対して,介入後の成功が誤認されることを防止し,介入センセーションデータと人為的介入データからの学習を安定させる。
ラッチ操作、コーヒーカップの配置、卵の取扱いなど、長時間の接触に富むタスクのリアルロボット実験は、TORL-VLAがサブタスクレベルとフルタスクレベルの両方の成功率を改善し、強いベースラインよりも時間に縛られた実行効率を向上させることを示した。
プロジェクトページ: https://torl-vla.github.io/
関連論文リスト
- TTT-VLA: Test-Time Latent Prompt Optimization for Vision-Language-Action Models [49.463896453707065]
VLA(Vision-Language-Action)モデルは目覚ましい進歩を遂げているが、展開時の分散シフトには弱いままである。
近年のVLAモデルは、プロンプトが政策行動の効率的なインターフェースとして機能することを示唆しているが、既存のプロンプトベースのステアリングは通常、外部ガイダンスに依存している。
VLAのテストタイムトレーニング(TTT)は、プロンプトの最適化によって実現可能か?
我々は、遅延プロンプト最適化(LPO)に基づくテスト時間トレーニングフレームワークであるTTT-VLAでこの問題に対処する。
論文 参考訳(メタデータ) (2026-06-02T04:10:39Z) - EXPO-FT: Sample-Efficient Reinforcement Learning Finetuning for Vision-Language-Action Models [84.73890225707264]
提案するEXPO-FTは,事前学習したVLAポリシーの安定かつサンプル効率の良いRL微調整システムである。
本システムは,オンラインロボットデータの平均19.1分以内の全ての評価課題に対して,完全なタスク性能(30/30の成功)を実現する。
我々は、ロボット工学におけるVLAモデルのより広範なRLファインタニング導入を促進することを目的とした、オープンソースのロバスト性をリリースする。
論文 参考訳(メタデータ) (2026-05-25T06:31:03Z) - Beyond Action Residuals: Real-World Robot Policy Steering via Bottleneck Latent Reinforcement Learning [42.74142065376427]
本稿では,Z-Perturbation Reinforcement Learning (ZPRL)を提案する。
現実世界では、ZPRLは模倣ベースポリシーよりも4つのタスクの平均成功率を33.7%向上させる。
論文 参考訳(メタデータ) (2026-05-19T14:43:26Z) - Jump-Start Reinforcement Learning with Vision-Language-Action Regularization [1.2599533416395767]
強化学習(RL)は、ロボット操作のための高周波閉ループ制御を可能にする。
現在の制限は、高速かつ正確な操作において直接の使用を妨げる。
探索と学習効率を向上させるために,VLAJS(Vision-Language-Action Jump-Starting)を提案する。
論文 参考訳(メタデータ) (2026-04-15T11:17:54Z) - CompliantVLA-adaptor: VLM-Guided Variable Impedance Action for Safe Contact-Rich Manipulation [35.15898666328117]
本稿では,視覚言語モデル (VLM) を用いた最先端のビジョン・ランゲージ・アクション (VLA) モデルを拡張した CompliantVLA-adaptor を提案する。
既存のVLAシステム(例えば、RTT、Pi0.5、OpenVLA-oft)は典型的には出力位置を出力するが、力覚的な適応が欠如しており、接触、コンプライアンス、不確実性を含む物理的タスクにおいて、安全でないまたは失敗した相互作用をもたらす。
我々の手法はVLAのベースラインよりも複雑なコンタクトリッチなタスクのスイートの方が優れていることを実証する。
論文 参考訳(メタデータ) (2026-01-21T23:52:40Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。