論文の概要: Encoder Winners Do Not Reliably Transfer Across VLA Backbone Scale: A Frozen-Backbone Grafting Diagnostic
- arxiv url: http://arxiv.org/abs/2606.14153v1
- Date: Fri, 12 Jun 2026 06:27:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.771904
- Title: Encoder Winners Do Not Reliably Transfer Across VLA Backbone Scale: A Frozen-Backbone Grafting Diagnostic
- Title(参考訳): Encoder Winnersは、VLAのバックボーンスケールを確実に移行しない:凍結-バックボーングラフト診断
- Authors: Qingping Zeng, Fei She,
- Abstract要約: ビジョン言語アクション(VLA)ポリシーは、一般的に上流のVLMリリースからビジョンエンコーダを継承するが、小さなVLA転送で検証されたエンコーダの選択がより大きなバックボーンに転送されるかどうかは不明である。
我々は,凍結したバックボーングラフト診断を導入し,VLAの視覚塔を固定プロトコルの下で候補エンコーダに置き換えた。
クローズドループ展開クレームではなく,エンコーダを大規模にコミットする前に,凍結移植を安価なターゲットバックボーン診断法として位置づけた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) policies typically inherit their vision encoder from upstream VLM releases, but it is unclear whether an encoder choice validated on a small VLA transfers to a larger backbone. We introduce a frozen-backbone grafting diagnostic: the vision tower of a released VLA is replaced by a candidate encoder under a fixed protocol (adaptive average pooling, LayerNorm, and a single trainable linear projector), with the language model and action expert frozen. Across four encoders, two LIBERO suites, two backbones (SmolVLA-450M and $π_{0.5}$-3.3B), and two-to-three seeds per cell (40 main grafting runs plus native, LoRA, pooling, and zero-/shuffled-image controls, all scored by offline action MSE), the small-backbone winner does not reliably select the large-backbone top tier: SigLIP is best on SmolVLA across both suites, while on $π_{0.5}$ DINOv2-small leads the spatial suite and the object suite is a seed-sensitive near-tie band; three of the four backbone-suite comparisons (and 11 of 12 seed-level cells) support backbone-dependent rankings. The grafting wrapper is itself non-neutral with opposite sign across backbones (+45-56% MSE on the SmolVLA native tower, -50-52% on $π_{0.5}$), so all conclusions are conditional on the fixed grafting protocol. We position frozen grafting as a cheap target-backbone diagnostic to run before committing to an encoder at scale, not as a closed-loop deployment claim.
- Abstract(参考訳): ビジョン言語アクション(VLA)ポリシーは、一般的に上流のVLMリリースからビジョンエンコーダを継承するが、小さなVLA転送で検証されたエンコーダの選択がより大きなバックボーンに転送されるかどうかは不明である。
固定されたプロトコル(適応平均プーリング、LayerNormおよび1つのトレーニング可能な線形プロジェクタ)の下で、解放されたVLAの視覚塔を候補エンコーダに置き換え、言語モデルとアクションエキスパートを凍結させる。
4つのエンコーダ、2つのLIBEROスイート、2つのバックボーン(SmolVLA-450Mおよび$π_{0.5}$-3.3B)、2つのバックボーン、1セルあたりの2対3のシード(40のメイングラフトはネイティブ、LoRA、プーリング、ゼロ/シャッフルイメージコントロール、すべてオフラインアクションMSEによってスコア付けされる)、小さなバックボーンの勝者は、大きなバックボーンのトップ層を確実に選択しない: SigLIPはSmolVLAの両スイートで最高である。
グラフトラッパー自体は、バックボーン間の反対の符号(SmolVLAネイティブタワーで+45-56% MSE、$π_{0.5}$で-50-52%)を持つ非中性であるため、すべての結論は固定グラフトプロトコル上で条件付きである。
クローズドループ展開クレームではなく,エンコーダを大規模にコミットする前に,凍結移植を安価なターゲットバックボーン診断法として位置づけた。
関連論文リスト
- Seeing Before Colliding: Anticipatory Safe RL with Frozen Vision-Language Models [0.0]
本稿では,凍結した視覚言語モデルをCMDPラグランジアン更新に組み込むフレームワークであるVLM-Safe-RLについて,予測コストの項として紹介する。
これは、凍ったVLM信号をCMDP Lagrangianアップデートの予測コスト用語として使う最初の作業である。
論文 参考訳(メタデータ) (2026-06-09T04:46:37Z) - Universal Boosts, Specific Suppressors: Sparse Autoencoder Steering of Medical Vision-Language Models [6.166748218298133]
医用視覚モデル(VLM)は胸部X線レポートを作成する際にしばしば発見を作製する。
パートーケンススパースオートエンコーダに基づく復号時間残差ステアリングにより、重み更新なしでこれを緩和する。
MIMIC-CXRテストスプリットでは,推測のみの手法により,生成したレポートの品質が向上する。
論文 参考訳(メタデータ) (2026-05-24T10:17:24Z) - When Does Sparse MoE Help in Vision? The Role of Backbone Compute Leverage in Sparse Routing [7.208745673318648]
Mixture-of-Experts (MoE)ネットワークは精度の高いトレードオフを約束するが、現実的なビジョン展開は専門家の崩壊によって妨げられる。
ハードキャパシティ制約付き上位k$ルーティングが視覚分類に有効である場合について検討する。
論文 参考訳(メタデータ) (2026-05-15T00:01:11Z) - Community-Aware Vertex Ordering for Reference-Based Graph Compression: A Cross-Encoder Empirical Study [0.0]
オーダリングとエンコーダの相互作用について検討する。
BG、CS、CGの3つの参照ベースのエンコーダは、最大28の候補分解から頂点毎のコスト最適選択を実行する。
エンコーダフレームワークは、低オーバヘッドランダムアクセスをサポートする自己補完ビットストリームも生成する。
論文 参考訳(メタデータ) (2026-05-13T10:38:31Z) - VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation [98.38575149237442]
VLAA-GUIは3つの統合コンポーネントを中心に構築されたモジュラーGUIフレームワークである。
必須完全性検証は、UIで観測可能な成功基準と検証を、各完了ステップで実施する。
強制的なループブレーカは、繰り返し失敗した後、多層切替インタラクションモードを提供する。
論文 参考訳(メタデータ) (2026-04-23T07:42:37Z) - Label-Free Cross-Task LoRA Merging with Null-Space Compression [50.63908869296697]
我々は,ラベルフリーで出力に依存しない手法であるNull-Space Compression (NSC) Mergingを紹介した。
NSCは、従来のメソッドがタスクのサブセットに収まるバランスの取れたゲインを持つ20の異種視覚タスクに対して、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-27T11:34:41Z) - Adaptive Capacity Allocation for Vision Language Action Fine-tuning [30.782665306687992]
視覚言語アクションモデル(VLA)は、物理AIにますます使われているが、未確認環境に事前訓練されたVLAモデルをデプロイするには、まだ適応が必要である。
固定ランク更新を入力および層単位のキャパシティに置き換えるランク適応微調整法であるLoRA-SPを提案する。
目に見えないAgileX PiPERのアームで収集された4つの実ロボット操作タスクでは、LoRA-SPはトレーニング可能なパラメータがはるかに少ない完全な微調整にマッチするか、超える。
論文 参考訳(メタデータ) (2026-03-08T01:33:01Z) - Discrete Diffusion VLA: Bringing Discrete Diffusion to Action Decoding in Vision-Language-Action Policies [62.653984010274485]
VLA(Vision-Language-Action)モデルは、画像や命令をロボットアクションにマッピングするために、大きな視覚言語バックボーンを適応させる。
prevailingAsは、固定された左から右への順序で自動回帰的にアクションを生成するか、バックボーンの外側で分離または拡散ヘッドをアタッチする。
本稿では離散拡散を伴う離散化作用チャンクをモデル化する統一変換器ポリシである離散拡散VLAを提案する。
論文 参考訳(メタデータ) (2025-08-27T17:39:11Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。