論文の概要: Mix-QVLA: Task-Evidence-Aware Mixed-Precision Quantization of Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.19565v1
- Date: Wed, 17 Jun 2026 20:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.520625
- Title: Mix-QVLA: Task-Evidence-Aware Mixed-Precision Quantization of Vision-Language-Action Models
- Title(参考訳): Mix-QVLA:Mix-Evidence-Aware Mixed-Precision Quantization of Vision-Language-Action Models
- Authors: Navin Ranjan, Andreas Savakis,
- Abstract要約: Mix-QVLAは、VLAモデルのためのタスクエビデンス対応の混合精度PTQフレームワークである。
境界活性化から正規化勾配重み付きタスクエビデンスマップを計算する。
決定を支持する証拠の強さと割り当ての両方の変化を捉えます。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Mix-QVLA, a task-evidence-aware mixed-precision PTQ framework for VLA models. Mix-QVLA anchors each quantized variant to the full-precision action-token reference decision and evaluates whether quantization preserves task-relevant evidence across key VLA functional boundaries. It computes normalized gradient-weighted task-evidence maps from boundary activations and compares full-precision and quantized maps using evidence-mass and attribution-distribution distortion, capturing changes in both the strength and allocation of decision-supporting evidence. A soft-bottleneck objective aggregates boundary-level degradation into layer-wise sensitivity scores. Mix-QVLA further models sensitivity throughout task execution, capturing phase-dependent shifts in layer importance rather than assuming a fixed sensitivity profile. The resulting evidence- and time-aware scores guide mixed-precision bit allocation under model-size and BitOps budgets. Extensive evaluations on OpenVLA-style policies show that Mix-QVLA improves the accuracy-efficiency trade-off of low-bit VLA deployment. On LIBERO, Mix-QVLA reduces OpenVLA-OFT memory from 15.4 GB to 4.1 GB, retains 96.3 average success compared with 97.1 for the BF16 model, and achieves a 1.52x inference speedup.
- Abstract(参考訳): VLAモデルのためのタスクエビデンス対応混合精度PTQフレームワークであるMix-QVLAを提案する。
Mix-QVLAは、全精度アクショントーケン参照決定にそれぞれ量子化された変種をアンカーし、量子化が重要なVLA機能境界を越えてタスク関連エビデンスを保存するかどうかを評価する。
境界活性化から正規化された勾配重み付きタスクエビデンスマップを計算し、エビデンス質量と帰属分布歪みを用いて完全精度と量子化マップを比較し、意思決定支援エビデンスの強さと割り当ての変化を捉える。
ソフト・ボトルネックの目標は境界レベルの劣化を層単位での感度スコアに集約する。
Mix-QVLAはさらに、タスクの実行を通しての感度をモデル化し、一定の感度プロファイルを仮定するのではなく、フェーズ依存の層シフトをキャプチャする。
その結果得られたエビデンスとタイムアウェアのスコアは、モデルサイズとBitOpsの予算下での混合精度ビット割り当てを導く。
OpenVLAスタイルのポリシーに対する大規模な評価は、Mix-QVLAが低ビットVLAデプロイメントの精度と効率のトレードオフを改善することを示している。
LIBEROでは、Mix-QVLAはOpenVLA-OFTメモリを15.4GBから4.1GBに削減し、BF16モデルの97.1と比較して96.3の平均的な成功を保ち、1.52倍の推論速度を達成する。
関連論文リスト
- MGVQ: Synergizing Multi-dimensional Sensitivity-Aware and Gradient-Hessian Fusion for Vector Quantization [14.071776510862824]
本研究は,多次元感性知覚と勾配ヘッセン核融合を統合した新しいベクトル量子化フレームワークMGVQを提案する。
2ビット量子化設定では、MGVQは既存の先進的なポストトレーニング量子化手法を大幅に上回り、4.9ポイントの最大精度向上を達成する。
提案手法は, 安定かつ効率的な超低ビットVLM量子化を実現し, 資源制限環境におけるマルチモーダル大規模モデルの実用的展開を大幅に促進する。
論文 参考訳(メタデータ) (2026-05-20T06:11:25Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - QVLA: Not All Channels Are Equal in Vision-Language-Action Model's Quantization [29.21308068128823]
具体化制御に特化して設計された最初のアクション中心量子化フレームワークであるQVLAを紹介する。
我々の研究は、ロボット工学におけるビジョン・ランゲージ・アクションモデルを圧縮するための、新しい原則の基盤を確立する。
論文 参考訳(メタデータ) (2026-02-03T17:43:45Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - MoPEQ: Mixture of Mixed Precision Quantized Experts [0.1262792599323502]
混合精度量子化(Mixed Precision Quantization)は、モデル内の層感度と重要性に基づいて、LLM/VLMの異なる層に異なる精度を割り当てる。
本稿では,各専門家に最適なビット幅を割り当てるポストトレーニング量子化アルゴリズムMoPEQを提案する。
本手法は,ヘッセントレース近似を用いて各専門家の感度を解析することにより,精度とモデルサイズをバランスさせる。
論文 参考訳(メタデータ) (2025-09-02T17:04:59Z) - EaqVLA: Encoding-aligned Quantization for Vision-Language-Action Models [10.58181401714169]
本稿では,VLAモデルに符号化整合量子化を適用するEaqVLAというフレームワークを提案する。
EaqVLAは、既存の量子化法よりも優れた量子化性能(エンドツーエンドのアクション制御とxxx倍加速の最小量子化損失)を達成する。
論文 参考訳(メタデータ) (2025-05-27T05:42:21Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。