論文の概要: CT-VAM: A Cerebello-Thalamic-Inspired Vision-Action Model for Efficient Visuomotor Control
- arxiv url: http://arxiv.org/abs/2606.09572v1
- Date: Mon, 08 Jun 2026 14:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.276381
- Title: CT-VAM: A Cerebello-Thalamic-Inspired Vision-Action Model for Efficient Visuomotor Control
- Title(参考訳): Cerebello-Thalamic-Inspired Vision-Action Modelによる高能率視運動制御
- Authors: Jiacheng Li, Yize Guo, Jiabin Guo, Qingchen Liu, Jiahu Qin,
- Abstract要約: 本稿では,効率的なタスク条件付き視覚運動制御のための視覚行動モデル(CT-VAM)を提案する。
CT-VAMは、デュアルビューの視覚的観察、プロプレセプション、および軽量タスク条件からアクションチャンクを予測する、コンパクトなローカル実行ポリシーとして機能する。
68万のパラメータしか持たないCT-VAMは、かなり大きなVLAモデルと競合するLIBEROの成功率を達成する。
- 参考スコア(独自算出の注目度): 8.522323773053882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action models have shown strong promise for robot manipulation, yet raw language is primarily needed to specify task intent rather than to be repeatedly processed during high-frequency low-level execution. Motivated by this separation, we propose a cerebello-thalamic-inspired vision-action model (CT-VAM) for efficient task-conditioned visuomotor control. CT-VAM acts as a compact local execution policy that predicts action chunks from dualview visual observations, proprioception, and a lightweight task condition, potentially enabling a practical cloud-edge paradigm in which high-level semantic reasoning can be handled by large models while fast closed-loop control runs on local hardware. To fuse heterogeneous inputs effectively, CT-VAM introduces TARS (Thalamic Action Routing Stream), a stream-separated conditional attention decoder that independently routes action, visual and task streams, preventing dense sensory tokens from overwhelming compact task-relevant conditions. With only 68M parameters, CT-VAM achieves LIBERO success rates competitive with substantially larger VLA models, while reducing inference latency. Together with flow-consistent inpainting for asynchronous chunk execution, CT-VAM supports high-frequency control and demonstrates robust realworld deployment on resource-constrained robotic platforms.
- Abstract(参考訳): 視覚言語アクションモデルはロボット操作に強く期待されているが、高頻度の低レベル実行中に繰り返し処理されるのではなく、タスク意図を指定するために生の言語が主に必要である。
この分離を動機として,効率的なタスク条件付き視覚運動制御のための脳波誘発視覚反応モデル(CT-VAM)を提案する。
CT-VAMは、デュアルビューの視覚観察、プロプレセプション、および軽量タスク条件からアクションチャンクを予測するコンパクトなローカル実行ポリシーとして機能し、高速なクローズドループ制御をローカルハードウェア上で実行しながら、大規模モデルで高レベルのセマンティック推論を処理できる実用的なクラウドエッジパラダイムを実現する可能性がある。
不均一な入力を効果的に融合するために、CT-VAMはTARS(Thalamic Action Routing Stream)を導入している。
68万のパラメータしか持たないCT-VAMは、推論遅延を低減しつつ、かなり大きなVLAモデルと競合するLIBERO成功率を達成する。
非同期チャンク実行のためのフロー一貫性のインペインティングと合わせて、CT-VAMは高周波制御をサポートし、リソース制約されたロボットプラットフォーム上での堅牢な実環境展開を実証する。
関連論文リスト
- CARE: Multi-Task Pretraining for Latent Continuous Action Representation in Robot Control [39.17038025776311]
CAREは、ロボットタスク実行のためのVLAモデルをトレーニングするために設計されたフレームワークである。
CAREはビデオテキストペアのみを活用することで、明示的なアクションラベルの必要性を排除している。
結果は, ロボット制御におけるCAREのスケーラビリティ, 解釈可能性, 有効性を示す。
論文 参考訳(メタデータ) (2026-01-30T02:28:32Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - ScaleWeaver: Weaving Efficient Controllable T2I Generation with Multi-Scale Reference Attention [86.93601565563954]
ScaleWeaverは、高度な視覚的自己回帰(VAR)モデルに基づいて、高忠実で制御可能な生成を実現するために設計されたフレームワークである。
提案された参照注意モジュールは image$rightarrow$condition から不要な注意を排除し、計算コストを削減している。
実験によると、ScaleWeaverは、拡散ベースの方法よりも優れた効率を実現しつつ、高品質な生成と正確な制御を提供する。
論文 参考訳(メタデータ) (2025-10-16T17:00:59Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Goal-Conditioned End-to-End Visuomotor Control for Versatile Skill
Primitives [89.34229413345541]
本稿では,制御器とその条件をエンドツーエンドに学習することで,落とし穴を回避する条件付け手法を提案する。
本モデルでは,ロボットの動きのダイナミックな画像表現に基づいて,複雑な動作シーケンスを予測する。
代表的MPCおよびILベースラインに対するタスク成功の大幅な改善を報告した。
論文 参考訳(メタデータ) (2020-03-19T15:04:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。