論文の概要: Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.07107v1
- Date: Fri, 05 Jun 2026 10:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.680632
- Title: Coarse-to-Control: Action-Token Planning for Vision-Language-Action Models
- Title(参考訳): 粗口論:視覚・言語・行動モデルのための行動計画
- Authors: Jinhao Wu, Shiduo Zhang, Yicheng Liu, Xiaopeng Yu, Sixian Li, Siyin Wang, Hang Zhao, Jing Huo, Yang Gao, Jingjing Gong, Xipeng Qiu, Yu-Gang Jiang,
- Abstract要約: Coarse-to-Controlは計画実行VLAで、アクション・ツー・ケンの領域で計画を導入する。
アクション・ツー・ケイン・プランニングは直接アクション・ジェネレーションよりも一貫して改善されていることを示す。
- 参考スコア(独自算出の注目度): 101.44987067974999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most vision-language-action (VLA) models map observations directly to actions without explicit intermediate planning, which limits performance on long-horizon tasks where early mistakes compound. We propose Coarse-to-Control, a plan-execute VLA that introduces planning natively in the action-token space. The key idea is to let the policy first predict a compact sequence of coarse action tokens that summarize the intended future trajectory, and then generate executable action tokens conditioned on this plan. Because both planning and execution share a unified discrete action vocabulary, the plan stays close to the control manifold and provides directly actionable guidance rather than an abstract hint that must be translated back to motor commands. Experiments on LIBERO, SimplerEnv-WidowX, and real-world manipulation tasks show that action-token planning consistently improves over direct action generation, with the largest gains on long-horizon multi-stage tasks.
- Abstract(参考訳): ほとんどの視覚言語アクション(VLA)モデルは、観察を明示的な中間計画なしで直接行動にマッピングする。
本稿では,アクション・ツー・ケント・スペースでネイティブに計画を導入する計画実行VLAであるCoarse-to-Controlを提案する。
鍵となる考え方は、まずポリシーが意図した将来の軌跡をまとめた粗いアクショントークンのコンパクトなシーケンスを予測させ、次にこの計画で条件付けられた実行可能なアクショントークンを生成することである。
計画と実行の両方が統一された個別の行動語彙を共有しているため、計画は制御多様体に近づき、モーターコマンドに変換しなければならない抽象的なヒントではなく、直接実行可能なガイダンスを提供する。
LIBERO、SimplerEnv-WidowX、および実世界の操作タスクに関する実験は、アクショントケインプランニングが直接アクション生成よりも一貫して改善され、長距離マルチステージタスクにおいて最大の利益が得られたことを示している。
関連論文リスト
- Afford-VLA: Action-Aligned Visual Planning via Internalized Affordance [108.46436073194546]
効果的なプランニングは、ローカルで、視覚的に基礎があり、内部で生成され、アクションと直接整合するべきである、と私たちは主張する。
本稿では,タスク条件付きアベイランスをVLAモデル内で明示的な視覚的計画インターフェースとして内包する統合フレームワークであるAfford-VLAを提案する。
論文 参考訳(メタデータ) (2026-05-22T20:43:47Z) - Long-Horizon Manipulation via Trace-Conditioned VLA Planning [55.80061850746898]
LoHo-Manipは、短い水平VLA実行を専用のタスク管理VLMを介して長い水平命令にスケールするフレームワークである。
LoHo-Manipは、サブタスクシーケンスと明示的な完了+残り分割を軽量言語メモリとして組み合わせた、進捗対応の残計画を予測する。
実行器VLAは、レンダリングされたトレースの条件に適合し、長い水平決定を繰り返しローカル制御に変換する。
論文 参考訳(メタデータ) (2026-04-23T17:59:04Z) - The Cognitive Bandwidth Bottleneck: Shifting Long-Horizon Agent from Planning with Actions to Planning with Schemas [56.62286434195321]
本稿では2つの異なる行動表現の有効性を体系的に研究する。
本稿では,その違いを質的に理解するための概念的枠組みとして,認知的帯域幅の観点を提案する。
より有能なPwSエージェントを構築するための実用的なガイドを提供する。
論文 参考訳(メタデータ) (2025-10-08T14:47:40Z) - ThinkAct: Vision-Language-Action Reasoning via Reinforced Visual Latent Planning [47.27336786187929]
視覚言語アクション(VLA)推論タスクでは、エージェントはマルチモーダル命令を解釈し、長期計画を実行し、動的環境で適応的に行動する必要がある。
既存のアプローチは通常、エンドツーエンドでVLAモデルをトレーニングし、明示的な推論なしに入力を直接アクションにマッピングする。
本稿では,高レベルの推論と低レベルのアクション実行を,強化された視覚的潜在計画を通じて橋渡しする,デュアルシステムフレームワークであるThinkActを提案する。
論文 参考訳(メタデータ) (2025-07-22T17:59:46Z) - Enhancing Visual Planning with Auxiliary Tasks and Multi-token Prediction [41.63965006043724]
Visual Planning for Assistance (VPA)は、ユーザの進捗を示すビデオに基づいて、特定の目標を達成するために必要な一連のユーザアクションを予測することを目的としている。
マルチモーダル大言語モデル(MLLM)の最近の進歩は、ビデオ理解において有望な結果を示している。
ビデオベースプランニングタスクにおいて,大規模なMLLMを訓練する上での課題を2つ挙げる。
論文 参考訳(メタデータ) (2025-07-20T21:39:05Z) - Learning to Reason and Navigate: Parameter Efficient Action Planning with Large Language Models [63.765846080050906]
本稿では,大規模言語モデル (PEAP-LLM) を用いたパラメータ効率の高いアクションプランナを提案する。
実験により,提案したREVERIEモデルが従来の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-05-12T12:38:20Z) - Efficient Robotic Policy Learning via Latent Space Backward Planning [17.770562202624962]
現行のロボット計画手法は、しばしば、全画素の詳細を持つ多フレーム画像の予測に頼っている。
本稿では,その課題を最終目標とするLBP(Latent Space Backward Planning scheme)を提案する。
LBPは既存の細粒度・前方計画法よりも優れた性能を示し,SOTA性能を実現している。
論文 参考訳(メタデータ) (2025-05-11T06:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。