論文の概要: VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands
- arxiv url: http://arxiv.org/abs/2606.09286v1
- Date: Mon, 08 Jun 2026 09:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.908399
- Title: VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands
- Title(参考訳): VAIC: 分離コマンドによる視覚誘導型ヒューマノイドアジャイルオブジェクトインタラクション制御
- Authors: Dongting Li, Qianyang Wu, Xingyu Chen, Liang Li, Yuhang Lin, Sikai Wu, Guoyao Zhang, Mingliang Zhou, Diyun Xiang, Qiang Zhang, Renjing Xu, Jianzhu Ma,
- Abstract要約: Vision Guided Agile Interaction Control (VAIC)は、現在のコントローラとヒューマノイドロボットのギャップを埋める統合フレームワークである。
まず、特権教師政策は、正確な物体運動学と正確な環境状態を用いて多様な相互作用スキルを習得する。
第二に、デプロイ可能な学生ポリシーは、全体追跡を複数の軸にまたがる速度目標に置き換えることで、これらの能力を蒸留する。
- 参考スコア(独自算出の注目度): 56.029505206531155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humanoid robots hold immense potential for real-world assistance, yet agile interaction with objects in unstructured environments demands tightly coupled whole-body coordination. Despite recent advancements, current controllers face a critical deployment gap. They rely heavily on dense reference trajectories and perfect state observability, which inherently limits physical generalization. We present Vision Guided Agile Interaction Control (VAIC), a unified framework that bridges this gap by operating exclusively on onboard depth, historical proprioception, and a decoupled user command interface. VAIC employs a two-stage distillation paradigm. First, a privileged teacher policy masters diverse interaction skills using precise object kinematics and exact environmental states. Second, a deployable student policy distills these capabilities by replacing full body tracking with velocity targets across multiple axes and an interaction indicator for each frame. The student utilizes a recurrent object adaptation module to implicitly infer unobservable object dynamics from raw depth streams and proprioception. Evaluations and real-world deployments on the humanoid robot demonstrate that a single VAIC policy successfully executes highly diverse dynamic tasks. These tasks include box carrying, cart interaction, and skateboarding, consistently outperforming baselines and advancing autonomous humanoid deployment.
- Abstract(参考訳): ヒューマノイドロボットは現実世界の補助には大きな可能性を秘めていますが、非構造化環境でのオブジェクトとのアジャイルな相互作用は、ボディ全体の調整を厳密に結合する必要があります。
最近の進歩にもかかわらず、現在のコントローラは重要なデプロイメントギャップに直面している。
それらは、物理的一般化を本質的に制限する、密度の高い参照軌道と完全な状態観測可能性に大きく依存している。
Vision Guided Agile Interaction Control (VAIC)は、このギャップを埋める統一されたフレームワークで、オンボードの奥行き、歴史的な先入観、分離されたユーザコマンドインターフェースでのみ動作する。
VAICは2段階の蒸留パラダイムを採用している。
まず、特権教師政策は、正確な物体運動学と正確な環境状態を用いて多様な相互作用スキルを習得する。
第二に、デプロイ可能な学生ポリシーは、全体追跡を複数の軸にまたがる速度目標と、各フレームの相互作用指標に置き換えることで、これらの能力を蒸留する。
学生は、再帰的なオブジェクト適応モジュールを使用して、生の深さストリームとプロプレセプションから観測不能なオブジェクトのダイナミクスを暗黙的に推測する。
ヒューマノイドロボットにおける評価と実世界の展開は、単一のVAICポリシーが非常に多様な動的タスクをうまく実行することを示す。
これらのタスクには、箱を運ぶこと、カートのインタラクション、スケートボード、ベースラインを一貫して上回り、自律的なヒューマノイドの展開を進めることが含まれる。
関連論文リスト
- InterReal: A Unified Physics-Based Imitation Framework for Learning Human-Object Interaction Skills [16.31202379413011]
我々は,現実世界の人間-物体間相互作用(HOI)制御のための統合物理学に基づく模倣学習フレームワークを開発した。
InterRealは、人間型ロボットがHOI参照動作をトラッキングし、きめ細かい対話的スキルの学習を容易にする。
クリティカルトラッキングエラーメトリクスによって導かれるメタ政治は、低レベルの強化学習目標に対して報酬信号を探索し、割り当てる。
論文 参考訳(メタデータ) (2026-03-08T07:44:35Z) - ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。
我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。
その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文 参考訳(メタデータ) (2026-03-03T18:59:29Z) - HAIC: Humanoid Agile Object Interaction Control via Dynamics-Aware World Model [56.4392302336014]
本稿では,外部状態推定を伴わない多種多様なオブジェクトダイナミクス間のロバストな相互作用のためのフレームワークであるHAICを提案する。
我々の重要な貢献は、主観的歴史のみから高次対象状態(速度、加速度)を推定するダイナミクス予測器である。
ヒューマノイドロボットの実験では、HAICはアジャイルタスクで高い成功率を達成する。
論文 参考訳(メタデータ) (2026-02-12T09:34:35Z) - InterPrior: Scaling Generative Control for Physics-Based Human-Object Interactions [58.329946838699044]
人間は、明示的な全身運動のレベルで、物体と全身の相互作用を計画することは滅多にない。
このような事前のスケーリングは、ヒューマノイドがロコ操作スキルの構築と一般化を可能にする鍵となる。
我々は,強化学習による大規模模倣事前学習とポストトレーニングを通じて,統合生成コントローラを学習するフレームワークであるInterPriorを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:59:27Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy [30.43930233035367]
VLM(Vision-Language Models)を利用した最初の統合物理ベースのHOフレームワークを紹介する。
VLM-Guided Relative Movement Dynamics (RMD)を導入する。これは、強化学習のための目標状態と報酬関数を自動的に構築する、微細な時間的二部運動表現である。
提案手法をサポートするために,何千もの長期の静的および動的相互作用計画を持つ新しいデータセットであるInterplayを提案する。
論文 参考訳(メタデータ) (2025-03-24T05:18:04Z) - DISCO: Embodied Navigation and Interaction via Differentiable Scene Semantics and Dual-level Control [53.80518003412016]
人間の命令によって多様なタスクに熟練した汎用的なインテリジェントホームアシストエージェントを構築することは、AI研究の長期的青写真である。
本研究では,具体的エージェントに対する原始的移動操作,すなわち指示された動詞と名詞のペアに基づいて,ナビゲートと対話の仕方について検討する。
本研究では、文脈化されたシーンモデリングと効率的な制御における非自明な進歩を特徴とするdisCOを提案する。
論文 参考訳(メタデータ) (2024-07-20T05:39:28Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。