論文の概要: TBD-VLA: Temporal Block Diffusion Vision Language Action Model
- arxiv url: http://arxiv.org/abs/2606.07895v1
- Date: Fri, 05 Jun 2026 23:10:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.519119
- Title: TBD-VLA: Temporal Block Diffusion Vision Language Action Model
- Title(参考訳): TBD-VLA:時間ブロック拡散ビジョン言語行動モデル
- Authors: Sung-Wook Lee, Xuhui Kang, Yen-Ling Kuo,
- Abstract要約: 本稿では,ブロック拡散を組み込んだ離散トークンベースのVLAフレームワークTBD-VLAを紹介する。
動作シーケンスを時間ブロックに分割し、ブロック間の自己回帰生成を維持しながら、各ブロック内でマスキングされた離散拡散を行う。
この設計は時間的自己回帰と並列動作復号を統一し、強い時間的コヒーレンスと推論速度の向上を両立させる。
- 参考スコア(独自算出の注目度): 7.861095039299131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete Vision-Language-Action (VLA) models typically formulate action generation as next-token prediction over discretized action spaces, conditioning each token autoregressively on prior context. While effective, this paradigm incurs high inference latency and largely ignores the temporal structure inherent in action trajectories. Recent efforts introduce parallel decoding to improve efficiency, enabling faster inference, but lack explicit mechanisms for modeling token dependencies. We introduce TBD-VLA, a discrete token-based VLA framework that incorporates block diffusion to enable temporal action generation. We partition action sequences into temporal blocks and perform masked discrete diffusion within each block, while maintaining autoregressive generation across blocks. This design unifies temporal autoregression and parallel action decoding, achieving both strong temporal coherence and improved inference speed. In addition, the explicit temporal modeling enables asynchronous execution of action chunks (e.g., Real-Time Chunking) via temporal in-painting. TBD-VLA significantly outperforms prior VLA approaches in both simulation and real-world manipulation tasks, offering a scalable path toward fast, temporally aware, discrete VLA models. Project webpage: https://tbd-vla.github.io/
- Abstract(参考訳): 離散ビジョン・ランゲージ・アクション(VLA)モデルは、通常、離散化されたアクション空間上での次のトーケン予測としてアクション生成を定式化し、それぞれのトークンを事前の文脈で自己回帰的に条件付けする。
効果はあるものの、このパラダイムは高い推論遅延を引き起こし、動作軌跡に固有の時間構造をほとんど無視する。
最近の取り組みでは、並列デコーディングを導入して効率を向上し、推論の高速化を実現しているが、トークン依存性をモデリングするための明確なメカニズムが欠如している。
本稿では,ブロック拡散を組み込んだ離散トークンベースのVLAフレームワークTBD-VLAを紹介する。
動作シーケンスを時間ブロックに分割し、ブロック間の自己回帰生成を維持しながら、各ブロック内でマスキングされた離散拡散を行う。
この設計は時間的自己回帰と並列動作復号を統一し、強い時間的コヒーレンスと推論速度の向上を両立させる。
さらに、明示的な時間的モデリングにより、時間的インペイントによるアクションチャンク(例:リアルタイムチャンキング)の非同期実行が可能になる。
TBD-VLAは、シミュレーションと実世界の操作タスクの両方において、従来のVLAアプローチよりも大幅に優れており、高速で時間的に認識された離散VLAモデルへのスケーラブルなパスを提供する。
プロジェクトWebページ: https://tbd-vla.github.io/
関連論文リスト
- BlockVLA: Accelerating Autoregressive VLA via Block Diffusion Finetuning [41.5997751218601]
BlockVLAは、事前訓練されたARバックボーンを効率的な離散拡散ポリシーに適合させるフレームワークである。
LIBERO と SimplerEnv のベンチマークを広範囲に評価する。
本モデルでは, トレーニング効率が向上し, 成功率がベースラインよりもかなり高速に収束する。
論文 参考訳(メタデータ) (2026-05-13T11:37:51Z) - DFM-VLA: Iterative Action Refinement for Robot Manipulation via Discrete Flow Matching [20.252867273996085]
本稿では,アクショントークンの反復精製のための離散フローマッチングVLAであるDFM-VLAを提案する。
DFM-VLAは、操作性能において、強い自己回帰、離散拡散、連続拡散ベースラインよりも一貫して優れる。
論文 参考訳(メタデータ) (2026-03-27T11:38:43Z) - Causal Autoregressive Diffusion Language Model [70.7353007255797]
CARDは厳密な因果注意マスク内の拡散過程を再構成し、単一の前方通過で密集した1対1の監視を可能にする。
我々の結果は,CARDが並列生成のレイテンシの利点を解放しつつ,ARMレベルのデータ効率を実現することを示す。
論文 参考訳(メタデータ) (2026-01-29T17:38:29Z) - Streaming-dLLM: Accelerating Diffusion LLMs via Suffix Pruning and Dynamic Decoding [36.74241893088594]
拡散大言語モデル(dLLM)は、自然言語生成に魅力的なパラダイムを提供する。
最近の研究はKVキャッシュの再利用や復号化を通じて推論を加速しているが、ブロックワイド拡散プロセスにおける本質的な非効率性を見落としている。
本稿では,空間次元と時間次元の両方にわたって推論を合理化する学習自由フレームワークStreaming-dLLMを提案する。
論文 参考訳(メタデータ) (2026-01-25T17:36:04Z) - NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows [75.70583906344815]
拡散モデルは、複雑なマルチモーダルな動作分布をモデル化できるため、アクションデコーダとして広く採用されている。
我々は、Vision-Language-Action(VLA)モデルのための拡散型デコーダの高速かつ表現性の高い代替品であるNinAを提案する。
論文 参考訳(メタデータ) (2025-08-23T00:02:15Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。