論文の概要: Invertible Neural Network Adapter for One-Step Flow Matching in Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.19194v1
- Date: Wed, 17 Jun 2026 15:35:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.244014
- Title: Invertible Neural Network Adapter for One-Step Flow Matching in Robot Manipulation
- Title(参考訳): ロボットマニピュレーションにおけるワンステップフローマッチングのための可逆ニューラルネットワークアダプタ
- Authors: Yu Zhang, Kangyi Ji, Yongxiang Zou, Rongtao Xu, Feng Zheng, Long Cheng,
- Abstract要約: 本稿では,汎用ロボット操作のための可逆ニューラルネットワークアダプタを提案する。
フローマッチングの定式化に基づいて、提案したアダプタは、可逆潜在空間内のアクション生成軌跡を制約する。
提案手法の有効性を評価するため,様々なシミュレーションベンチマークと実世界のロボットプラットフォームを用いて実験を行った。
- 参考スコア(独自算出の注目度): 48.77928097573051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an invertible neural network adapter for general robotic manipulation, designed to generate precise high-dimensional actions conditioned on multimodal observations, including visual, linguistic, and proprioceptive inputs, through a one-step denoising process. Built upon a flow-matching formulation, the proposed adapter effectively constrains the action generation trajectory within an invertible latent space, thereby enabling efficient and high-quality dexterous action synthesis with only a single inference step. Compared with conventional iterative flow-matching policies, the proposed framework substantially reduces inference complexity while maintaining strong action prediction accuracy and stability. Extensive experiments are conducted across a diverse set of simulation benchmarks and real-world robotic platforms to evaluate the effectiveness of the proposed method. Across simulation benchmarks, the proposed adapter consistently demonstrates superior or near state-of-the-art performance on a wide range of manipulation tasks. Furthermore, real-world experiments reveal a significant improvement in inference efficiency for vision-language-action (VLA) models, reducing the average inference latency from 110 ms to 61 ms while maintaining strong task performance.
- Abstract(参考訳): 本稿では,視覚的,言語的,固有受容的な入力を含むマルチモーダルな観察を前提とした高精度な高次元動作を,一段階の認知過程を通じて生成する,汎用ロボット操作のための可逆ニューラルネットワークアダプタを提案する。
フローマッチングの定式化に基づいて,提案したアダプタは,非可逆潜在空間内での動作生成軌跡を効果的に抑制し,単一の推論ステップのみで効率よく高品質なデキスタラスな動作合成を可能にする。
従来の反復型フローマッチングポリシと比較して,提案フレームワークは,強い動作予測精度と安定性を維持しつつ,推論の複雑さを大幅に低減する。
提案手法の有効性を評価するため,多種多様なシミュレーションベンチマークと実世界のロボットプラットフォームを用いて大規模な実験を行った。
シミュレーションベンチマークで提案したアダプタは、広範囲な操作タスクにおいて、優れた、あるいはほぼ最先端のパフォーマンスを一貫して示す。
さらに、実世界の実験では、視覚言語アクション(VLA)モデルにおける推論効率が大幅に向上し、高いタスク性能を維持しながら、平均推論遅延を110msから61msに短縮した。
関連論文リスト
- Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models [7.802379200026965]
認識状態の複雑さに基づいてVLA実行を動的にルーティングする適応型フレームワークを提案する。
我々のアプローチは、VLAの視覚言語バックボーンを、パラメトリックおよび非パラメトリック推定器のアンサンブルに潜伏埋め込みを投影することにより、アクティブな検出ツールに変換する。
論文 参考訳(メタデータ) (2026-03-05T13:14:41Z) - EfficientFlow: Efficient Equivariant Flow Policy Learning for Embodied AI [8.90880897951322]
ジェネレーティブ・モデリングは、ビジュモータ・ポリシー・ラーニング(英語版)において顕著な将来性を示した。
EfficientFlowは、フローベースのポリシー学習を備えた効率的なエンボディAIのための統合されたフレームワークである。
論文 参考訳(メタデータ) (2025-12-01T18:59:59Z) - CAMP-HiVe: Cyclic Pair Merging based Efficient DNN Pruning with Hessian-Vector Approximation for Resource-Constrained Systems [3.343542849202802]
CAMP-HiVeは,Hessian Vector近似を用いたサイクリックペアマージベースプルーニングである。
実験により,提案手法が計算要求の大幅な削減を実現することを示す。
既存の最先端のニューラルプルーニング法よりも優れています。
論文 参考訳(メタデータ) (2025-11-09T07:58:36Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Self-Consistent Model-based Adaptation for Visual Reinforcement Learning [27.701421196547674]
視覚強化学習エージェントは、視覚障害による実世界のアプリケーションの性能低下に直面している。
既存の方法は、手作りの拡張でポリシーの表現を微調整することに依存している。
本稿では、ポリシーを変更することなくロバスト適応を促進する新しい手法である自己一貫性モデルベース適応(SCMA)を提案する。
論文 参考訳(メタデータ) (2025-02-14T05:23:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - EUCLID: Towards Efficient Unsupervised Reinforcement Learning with
Multi-choice Dynamics Model [46.99510778097286]
教師なし強化学習(URL)は,タスクに依存しない環境で有用な行動を学ぶための,有望なパラダイムである。
本研究では,事前学習フェーズにおける動的モデルと教師なし探索ポリシーを協調的に事前学習するための,新しいモデル融合パラダイムを提案する。
本研究では,EUCLIDが高サンプリング効率で最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-10-02T12:11:44Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。