論文の概要: Assistron: Bayesian Shared Autonomy with Off-the-shelf Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.23147v1
- Date: Mon, 22 Jun 2026 10:47:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:48:57.111524
- Title: Assistron: Bayesian Shared Autonomy with Off-the-shelf Vision-Language-Action Models
- Title(参考訳): Assistron: オフザシェルフビジョン・ランゲージ・アクションモデルによるベイジアン共有自律性
- Authors: Pinhao Song, Ze Fu, Yutong Hu, Renaud Detry,
- Abstract要約: 本稿では,VLA(Vision-Language-Action)モデルを活用する共有自律モデルであるAssistronを提案する。
我々のアプローチは,(1)VLA駆動の自律性をマクロ運動に活用することによる人間の認知力と身体的努力の最小化,(2)重要な障害点に特化して人の介入を優先順位付けすること,の2つの原則に根ざしている。
- 参考スコア(独自算出の注目度): 6.557127548028966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Assistron, a shared autonomy model that leverages Vision-Language-Action (VLA) models to assist the user in daily activities. Our approach is grounded in two core principles: (1)~minimizing human cognitive and physical effort by leveraging VLA-driven autonomy for macro-movements, and (2)~prioritizing human intervention specifically at critical failure points. Driven by the user's verbal language commands, Assistron utilizes the VLA to autonomously execute macro-reaching trajectories, saving users' effort. In contact-rich interactions where VLAs tend to fail, Assistron employs a phase-aware interaction detection mechanism and solicits the user to intervene, in turn adjusting the VLA's action generation via flow matching guidance. Critically, our formulation eliminates the need for VLA fine-tuning, protecting its broad behavioral priors from catastrophic forgetting and ensuring the model does not become a narrow specialist. We validate our approach on a comprehensive multi-task scene recovery benchmark encompassing diverse daily manipulation skills. Empirical results demonstrate that Assistron significantly improves task success rates over pure autonomous baselines while significantly reducing human cognitive and physical workload compared to traditional teleoperation, offering a scalable, smooth, and effortless paradigm for assistive manipulation. The code is available in https://github.com/mousecpn/Assistron.git.
- Abstract(参考訳): 本稿では,VLA(Vision-Language-Action)モデルを活用する共有自律モデルであるAssistronを提案する。
我々のアプローチは,(1)VLA駆動の自律性をマクロ運動に活用することにより,人間の認知と身体の努力を最小化すること,(2)重要な障害点において,人間の介入を優先的に行うこと,の2つの原則に根ざしている。
ユーザの言語コマンドによって駆動されるAssistronは、VLAを使用してマクロな軌跡を自律的に実行し、ユーザの労力を節約する。
VLAがフェールしがちなコンタクトリッチなインタラクションでは、Assistronはフェーズアウェアなインタラクション検出機構を採用し、ユーザが介入するよう促し、フローマッチングガイダンスを介してVLAのアクション生成を調整する。
批判的に、我々の定式化は、VLAの微調整の必要性を排除し、その幅広い行動の先行を破滅的な忘れ物から保護し、モデルが狭義のスペシャリストにならないようにする。
多様な日常操作スキルを含む総合マルチタスクシーンリカバリベンチマークにおいて,本手法の有効性を検証した。
実証実験の結果、Assistronは従来の遠隔操作と比較して人間の認知と身体の負担を大幅に削減し、支援操作のためのスケーラブルでスムーズで努力の無いパラダイムを提供する。
コードはhttps://github.com/mousecpn/Assistron.gitで公開されている。
関連論文リスト
- QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation [14.050551792714083]
ヒューマン・イン・ザ・ループ(HiL)学習は、ロボットポリシーを洗練するための強力なメカニズムであることが証明されている。
DexHiLはDexterous VLAモデルのための最初の統合アームハンドヒューマン・イン・ザ・ループ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-10T02:55:27Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action [62.70893433854428]
推論能力を維持しつつ、慎重に設計した後処理により動作性能を向上させるDualVLAを提案する。
実験の結果、DualVLAはSimplerEnvの平均成功率は61.0であり、8つの競合するマルチモーダルベンチマークの平均スコアは65.4であることがわかった。
論文 参考訳(メタデータ) (2025-11-27T06:03:53Z) - End-to-End Dexterous Arm-Hand VLA Policies via Shared Autonomy: VR Teleoperation Augmented by Autonomous Hand VLA Policy for Efficient Data Collection [10.217810309422232]
マクロモーションとマイクロモーションの制御を分割するフレームワークを提案する。
人間のオペレーターが直感的なVR遠隔操作を通してロボットの腕のポーズをガイドします。
自律的なDexGrasp-VLAポリシは、リアルタイム触覚と視覚フィードバックを使用して、きめ細かい手制御を処理する。
論文 参考訳(メタデータ) (2025-10-31T16:12:02Z) - IntentionVLA: Generalizable and Efficient Embodied Intention Reasoning for Human-Robot Interaction [51.130510883952546]
Vision-Language-Action(VLA)モデルは、事前訓練された視覚言語モデル(VLM)を活用して、ロボット制御との認識を両立させる。
カリキュラム学習パラダイムと効率的な推論機構を備えたVLAフレームワークである textbfIntentionVLA を提案する。
提案手法はまず,意図推論,空間的接地,コンパクトな具体的推論を組み合わせ,慎重に設計した推論データを活用する。
論文 参考訳(メタデータ) (2025-10-09T04:49:46Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。