Fugu-MT 論文翻訳(概要): PolicyTrim: Boosting Intrinsic Policy Efficiency of Vision-Language-Action Models

論文の概要: PolicyTrim: Boosting Intrinsic Policy Efficiency of Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2606.22540v1
Date: Sun, 21 Jun 2026 14:54:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 17:05:30.018034
Title: PolicyTrim: Boosting Intrinsic Policy Efficiency of Vision-Language-Action Models
Title（参考訳）: PolicyTrim:ビジョン・ランゲージ・アクションモデルの本質的な政策効率を高める
Authors: Xianghui Wang, Feng Chen, Wenbo Zhang, Hua Yan, Zixuan Wang, Changsheng Li, Yinjie Lei,
Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット操作の統一パラダイムを提供するが、実際のデプロイメントは実行効率によってボトルネックになることが多い。強化学習に基づくポストトレーニングフレームワークである textbfPolicyTrim を提案する。私たちのフレームワークは、タスクの成功率を損なうことなく、最大5.83$times$エンドツーエンドのデプロイメントスピードアップを提供します。
参考スコア（独自算出の注目度）: 50.232333672172395
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vision-Language-Action (VLA) models provide a unified paradigm for robotic manipulation, yet their real-world deployment is often bottlenecked by execution efficiency. While existing efforts predominantly focus on compute-centric efficiency to reduce per-step inference latency, the intrinsic \textbf{policy efficiency} of these models remains largely unexplored. Policy efficiency is fundamentally affected by two factors, namely the effective executable length of predicted action chunks and the total physical steps required to complete a task. These two factors jointly determine the total number of forward inference calls during execution. We observe that current VLA policies struggle with planning unreliability and action redundancy, suffering from severe prediction degradation at the tail of action chunks and tending to generate unnecessarily redundant physical steps. To address this, we propose \textbf{PolicyTrim}, a reinforcement learning-based post-training framework that extends the reliable action chunk length and reduces redundant physical steps. For reliable chunk extension, we employ a dynamic exploration strategy that explicitly rewards the successful completion of longer executable lengths, progressively pushing the trustworthy prediction horizon to its empirical limit. For step efficiency, we design a redundancy-aware reward that directly favors successful task completions with fewer steps while penalizing unreproducible shortcuts, effectively eliminating redundant physical actions. Extensive experiments across three benchmarks and three VLA models demonstrate that PolicyTrim improves action chunk utilization by 3$\times$ and reduces physical execution steps by 51.4\%. Ultimately, our framework delivers up to a 5.83$\times$ end-to-end deployment speedup without compromising task success rates.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ロボット操作の統一パラダイムを提供するが、実際のデプロイメントは実行効率によってボトルネックになることが多い。既存の取り組みは主にステップ毎の推論遅延を削減する計算中心の効率に重点を置いているが、これらのモデルの本質的な「textbf{policy efficiency}」は未解明のままである。政策効率は基本的に、予測されたアクションチャンクの有効実行期間と、タスクを完了させるために必要な全物理ステップの2つの要因によって影響を受ける。これら2つの要因は、実行中のフォワード推論呼び出しの総数を共同で決定する。現状のVLA政策は,不確実性や行動冗長性の計画に苦しむとともに,アクションチャンクの尾部での重大な予測劣化に悩まされ,不要に冗長な物理ステップを生じる傾向にある。そこで本稿では,信頼度の高いアクションチャンク長を拡張し,冗長な物理ステップを削減する強化学習ベースのポストトレーニングフレームワークである‘textbf{PolicyTrim} を提案する。信頼性の高いチャンク拡張には、より長い実行期間の完了を明示的に報いる動的探索戦略を採用し、信頼性の高い予測地平線を経験的限界まで徐々に押し進める。ステップ効率向上のために,再現不可能なショートカットをペナルティ化し,冗長な物理動作を効果的に排除しつつ,少ないステップでタスク完了を成功させる冗長性を考慮した報酬を設計する。 3つのベンチマークと3つのVLAモデルにわたる大規模な実験により、PocialTrimはアクションチャンクの利用を3$\times$で改善し、物理実行ステップを51.4\%削減することを示した。最終的に、私たちのフレームワークは、タスクの成功率を損なうことなく、最大5.83$\times$エンドツーエンドのデプロイメントスピードアップを提供します。

関連論文リスト

Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts [18.44683570310399]
低品質なアクションは、実行中に物理的な障害を引き起こしたり、冗長なレンダリングコストで世界モデルのロールアウトを誤解させるおそれがある。実演や世界モデルの想像力の前にプリエンプティブ・アクションアセスメントの妥当性を示す統一型ランタイム検証アーキテクチャであるPre-VLAを提案する。
論文参考訳（メタデータ） (2026-05-21T13:13:31Z)
Latent Action Reparameterization for Efficient Agent Inference [56.42014061367112]
本稿では,複数のステップのセマンティックな振る舞いに対応する,コンパクトな潜在行動空間を学習するフレームワークを提案する。手作りのマクロや階層型コントローラとは異なり、潜在動作はエージェントの軌跡から学習され、モデルに直接統合される。
論文参考訳（メタデータ） (2026-05-18T16:07:44Z)
Contrastive Conceptor Activation Steering (COAST): Unlocking Vision-Language-Action Models through Hidden States [4.1864205728857256]
Vision-Language-Action(VLA)モデルは、WebスケールのVision-Language Model(VLM)事前トレーニングから、強力な知覚的事前学習を活用する。これを軽減するために、コントラスト概念活性化ステアリング(COAST)を提案する。 COASTは、目標となるロボットタスクに対して成功クリティカルなサブスペースを特定するために概念を使用する。
論文参考訳（メタデータ） (2026-05-16T20:28:21Z)
Dynamic Execution Commitment of Vision-Language-Action Models [21.647844049489535]
本稿では,動的実行コミットメントを自己特定的プレフィックス検証問題として再編成する適応アクションアクセプタンス機構であるA3を紹介する。 A3はまず、グループサンプリングを介して行動の軌跡的なコンセンサススコアを計算し、次に代表ドラフトを選択し、下流検証を優先する。さまざまなVLAモデルとベンチマークの実験では、A3は手動の水平調整の必要性を排除し、実行と推論のスループットのトレードオフを優れたものにしている。
論文参考訳（メタデータ） (2026-05-12T05:52:58Z)
Decoupled Q-Chunking [63.864222078287575]
チャンクされた批評家は、個々のアクションではなく、短いアクションシーケンス("チャンク")の価値を見積もって、価値のバックアップをスピードアップします。私たちの重要な洞察は、批判者のチャンクの長さをポリシーのチャンクの長さから切り離すことで、ポリシーがより短いアクションチャンクを乗り越えることを可能にすることです。この設計は、オープンループのサブ最適化と長いアクションチャンクに対するアクションチャンクポリシーの学習の難しさを両立させながら、マルチステップ値伝搬の利点を保っている。
論文参考訳（メタデータ） (2025-12-11T18:52:51Z)
DEPO: Dual-Efficiency Preference Optimization for LLM Agents [75.6723341304463]
本稿では、簡潔な応答とアクションステップの低減を両立させる二重効率優先最適化手法DEPOを提案する。 WebShopとBabyAIの実験によると、DECOはトークンの使用量を最大60.9%削減し、ステップを最大26.9%削減し、パフォーマンスは最大29.3%向上した。
論文参考訳（メタデータ） (2025-11-19T12:38:43Z)
ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration [25.45699736192177]
大規模言語モデル(LLM)は、インテリジェントなマルチロボットコラボレーションを可能にするが、基本的なトレードオフに直面している。本稿では,アクションチェーンを導入した新たなフレームワークであるELHPlanを提案する。
論文参考訳（メタデータ） (2025-09-29T03:15:56Z)
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models [21.42353501209045]
VLA(Vision-Language-Action)モデルは、エンボディインテリジェンスに対する変換ポテンシャルを示すが、高い計算とメモリ要求によって著しく妨げられる。本稿では,構造化およびトレーニング不要な推論促進フレームワークであるEfficientVLAを紹介する。提案手法を標準VLAモデルであるCogACTに適用し,予測速度を1.93倍に向上し,FLOPを28.9%に削減し,SIMPLERベンチマークでは0.6%の成功率の低下に留まった。
論文参考訳（メタデータ） (2025-06-11T18:34:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。