論文の概要: DAM-VLA: Decoupled Asynchronous Multimodal Vision Language Action model
- arxiv url: http://arxiv.org/abs/2606.12105v1
- Date: Wed, 10 Jun 2026 13:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.494327
- Title: DAM-VLA: Decoupled Asynchronous Multimodal Vision Language Action model
- Title(参考訳): DAM-VLA: Asynchronous Multimodal Vision Language Action Model の分離
- Authors: Pankhuri Vanjani, Zhuoyue Li, Jakub Suliga, Moritz Reuss, Gianluca Geraci, Xinkai Jiang, Rudolf Lioutikov,
- Abstract要約: ビジョン言語アクション(VLA)モデルは、視覚言語事前学習から共有同期クロックを継承し、全ての入力を1レートで処理する。
同期VLAは遅いモダリティをオーバーサンプリングし、高速なモダリティをアンサンプし、最低有効周波数でアクション生成をカプセル化する。
DAM-VLAは,センサレートでリフレッシュされたモードごとの潜伏バッファを保持し,アクションヘッドで連続して読み取る。
- 参考スコア(独自算出の注目度): 6.247270890079242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models inherit a shared synchronous clock from vision-language pretraining, processing every input at one rate. This is misaligned with physical interaction, where a high-frequency modality changes at hundreds of hertz, vision evolves more slowly, and language stays constant across an episode. A synchronous VLA oversamples slow modalities, undersamples fast ones, and caps action generation at the lowest effective frequency. We hypothesize that decoupling temporal processing per modality, letting each update and retain information at its own sensor rate, yields stronger representations and more robust control. We present DAM-VLA, which maintains per-modality latent buffers refreshed at sensor rates and read continuously by the action head, integrating new high-frequency modalities through gated cross-attention that leaves the pretrained backbone intact. Across seven contact-rich real-world manipulation tasks, DAM-VLA more than doubles the average success rate of the strongest synchronous baseline (95.2\% vs.\ 40.95\%) while sustaining smooth, reactive 100\,Hz control. Project website: \href{https://intuitive-robots.github.io/DAM-VLA/}{intuitive-robots.github.io/DAM-VLA/}
- Abstract(参考訳): ビジョン言語アクション(VLA)モデルは、視覚言語事前学習から共有同期クロックを継承し、全ての入力を1レートで処理する。
これは、数百ヘルツで高周波のモダリティが変化し、視覚がよりゆっくり進化し、言語がエピソード全体にわたって一定に保たれる物理的相互作用と不一致である。
同期VLAは遅いモダリティをオーバーサンプリングし、高速なモダリティをアンサンプし、最低有効周波数でアクション生成をカプセル化する。
我々は、モーダリティごとに時間的処理を分離することで、各更新と情報を自身のセンサーレートで保持し、より強力な表現とより堅牢な制御をもたらす、という仮説を立てている。
DAM-VLAは, センサレートでリフレッシュし, 動作ヘッドで連続的に読み取ることで, 予め訓練した後骨を無傷で残すゲートクロスアテンションにより, 新たな高周波モダリティを統合する。
7つの接触に富んだ実世界の操作タスクの中で、DAM-VLAは最強の同期ベースライン(95.2\%対)の平均成功率を2倍以上にしている。
40.95 %)で、スムーズで反応性の高い100\,Hz の制御を維持している。
プロジェクトウェブサイト: \href{https://intuitive-robots.github.io/DAM-VLA/}{intuitive-robots.github.io/DAM-VLA/}
関連論文リスト
- TempoVLA: Learning Speed-Controllable Vision-Language-Action Policies [58.40033352838586]
既存のVision-Language-Action Model (VLA) は、トレーニングデモから1つの固定速度を継承するのみである。
予測された各行動の大きさが、ロボットの動きの速さをすでに支配していることを観察する。
我々はこの観測結果を、明示的な条件で実行速度を制御する単一のVLAであるTempoVLAに変換する。
論文 参考訳(メタデータ) (2026-06-04T17:59:40Z) - MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合ストリーミングVLAアーキテクチャであるMindVLA-U1を紹介する。
統一されたVLMバックボーンは、1つの共有表現に1つのフォワードパスでAR言語トークンとフローマッチングされた連続的なアクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning [38.78160379823724]
リカレントディープスVLA(Recurrent-Depth VLA)は、明示的なトークン生成ではなく、遅延反復精製による計算適応性を実現するアーキテクチャである。
RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。
論文 参考訳(メタデータ) (2026-02-08T07:21:01Z) - Asynchronous Fast-Slow Vision-Language-Action Policies for Whole-Body Robotic Manipulation [10.09057399213028]
Vision-Language-Action(VLA)システムは、意味論的推論のためのVision-Language Model(VLM)と、連続的なアクション信号を生成するアクションエキスパートを統合する。
本稿では,非同期なFast-Slow VLAフレームワーク(DuoCore-FS)を導入し,アクション生成のための高速経路とリッチなVLM推論のための遅い経路にシステムを編成する。
論文 参考訳(メタデータ) (2025-12-23T09:28:20Z) - Token Expand-Merge: Training-Free Token Compression for Vision-Language-Action Models [16.321608201919474]
大規模マルチモーダルデータセットで事前訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、ロボットの知覚と制御の強力な基盤として現れている。
タスク性能を維持しながらVLA推論を高速化する訓練不要なトークン圧縮フレームワークであるExpand Token-and-Merge-VLAを提案する。
論文 参考訳(メタデータ) (2025-12-10T18:59:24Z) - VLASH: Real-Time VLAs via Future-State-Aware Asynchronous Inference [24.248289541718275]
非同期推論は、連続および低レイテンシ制御を実現するための有望なソリューションを提供する。
本稿では,ビジョン・ランゲージ・アクションモデルのための一般的な非同期推論フレームワークであるVLASHを提案する。
追加のオーバーヘッドやアーキテクチャの変更なしに、スムーズで、正確で、高速な反応制御を提供する。
論文 参考訳(メタデータ) (2025-11-30T18:59:24Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。