論文の概要: VQActFlow: Vector-Quantized Action Mode Steering for Multi-Task Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.21600v1
- Date: Fri, 19 Jun 2026 16:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 06:46:36.477047
- Title: VQActFlow: Vector-Quantized Action Mode Steering for Multi-Task Robot Manipulation
- Title(参考訳): VQActFlow:マルチタスクロボット操作のためのベクトル量子化動作モードステアリング
- Authors: Zhigen Zhao, Mark Leggiero, Yipu Chen, Haoran Liu, Yifan Wu, Huishu Xue, Sirui Zhan, Ye Zhao,
- Abstract要約: VQActFlowは、アクションチャンクをトークン化し、コードシーケンスを生成するマルチタスク操作ポリシーである。
推論時のガイダンスは、ステアモードのコミットメントに対するこの好みに作用する。
VQActFlowを3つのプラットフォーム上で評価する: LIBEROシミュレーションベンチマーク、Unitree G1ヒューマノイドが全体ピック・アンド・プレイス、ALOHAスタイルのバイマン・プラットフォームがコンタクトリッチなタスクを実行する。
- 参考スコア(独自算出の注目度): 11.975174558402864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task robot manipulation policies are challenging to learn from demonstration because traditionally a single network must select among qualitatively different action modes from a multimodal demonstration distribution, conditioned on language and visual context. A wrong mode selection means executing the wrong task or an action infeasible in the scene. Tokenizing continuous actions into a learned discrete codebook separates these modes at the representation level, offering structural advantages for multi-task learning. We propose VQActFlow, a multi-task manipulation policy that tokenizes action chunks and generates code sequences via Variational Flow Matching. VQActFlow maintains an explicit preference over action modes throughout generation. Inference-time guidance acts on this preference to steer mode commitment. We instantiate this with classifier-free guidance over language conditioning, which steers the policy toward the instructed action mode, and a learned codebook critic that supplies a complementary feasibility signal. We evaluate VQActFlow on three platforms: the LIBERO simulation benchmarks, a Unitree G1 humanoid performing whole-body pick-and-place, and an ALOHA-style bimanual platform performing contact-rich tasks. Across these benchmarks, VQActFlow outperforms both continuous and discrete baselines.
- Abstract(参考訳): マルチタスクロボットの操作ポリシーは、伝統的に1つのネットワークが言語と視覚的文脈で条件付けられたマルチモーダルなデモンストレーション分布から質的に異なるアクションモードを選択する必要があるため、デモから学ぶことが難しい。
間違ったモード選択は、シーン内で間違ったタスクやアクションを実行することを意味する。
継続的アクションを学習された離散コードブックに組み込むことは、これらのモードを表現レベルで分離し、マルチタスク学習のための構造的な利点を提供する。
本稿では,アクションチャンクをトークン化し,変分フローマッチングによるコードシーケンスを生成するマルチタスク操作ポリシであるVQActFlowを提案する。
VQActFlowは世代を通してアクションモードよりも明確な優先順位を維持している。
推論時のガイダンスは、ステアモードのコミットメントに対するこの好みに作用する。
我々はこれを、指示されたアクションモードに対するポリシーを操縦する言語条件付けに関する分類子なし指導と、補完的な実現可能性信号を提供する学習されたコードブック評論家とでインスタンス化する。
VQActFlowを3つのプラットフォーム上で評価する: LIBEROシミュレーションベンチマーク、Unitree G1ヒューマノイドが全体ピック・アンド・プレイス、ALOHAスタイルのバイマン・プラットフォームがコンタクトリッチなタスクを実行する。
これらのベンチマーク全体で、VQActFlowは連続的ベースラインと離散的ベースラインの両方でパフォーマンスが向上している。
関連論文リスト
- HiFlow: Tokenization-Free Scale-Wise Autoregressive Policy Learning via Flow Matching [11.405254375363818]
階層フロー政策(Hierarchical Flow Policy)は、トークン化のない粗大な自己回帰政策である。
HiFlowは、単純な時間プーリングを通じて、各アクションチャンクからマルチスケールの連続的なアクションターゲットを構築する。
MimicGen、RoboTwin 2.0、および実環境の実験は、HiFlowが既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-28T14:22:58Z) - Primary-Fine Decoupling for Action Generation in Robotic Imitation [91.2899765310853]
ロボット操作動作シーケンスにおけるマルチモーダル分布は、模倣学習にとって重要な課題である。
PF-DAG(プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、プライマリ・フィン・デカップリング・フォー・アクション・ジェネレーション、PF-DAG)を提案する。
PF-DAGは、Adroit、DexArt、MetaWorldベンチマークの56タスクで最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-25T08:36:45Z) - FlowSteer: Interactive Agentic Workflow Orchestration via End-to-End Reinforcement Learning [49.369614288007334]
FlowSteerは、エージェントと実行可能なキャンバス環境として軽量なポリシーモデルを採用する、エンドツーエンドの強化学習フレームワークである。
FlowSteerは様々なタスクでベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2026-02-02T05:30:42Z) - VITA-E: Natural Embodied Interaction with Concurrent Seeing, Hearing, Speaking, and Acting [66.90028121194636]
現在のビジョン・ランゲージ・アクション(VLA)モデルは、しばしば堅固で静的な相互作用パラダイムによって制約される。
VITA-Eは、動作とほぼリアルタイムの割り込みの両方のために設計された、新しい具体的相互作用フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T17:59:56Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - AdaFlow: Imitation Learning with Variance-Adaptive Flow-Based Policies [21.024480978703288]
本稿では,フローベース生成モデルに基づく模倣学習フレームワークであるAdaFlowを提案する。
AdaFlowは状態条件付き常微分方程式(ODE)によるポリシーを表す
AdaFlowは高速な推論速度で高い性能を実現する。
論文 参考訳(メタデータ) (2024-02-06T10:15:38Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。