論文の概要: Output-Level Regularization Eliminates the Seed Lottery in Single-GPU VLA Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.13856v1
- Date: Thu, 11 Jun 2026 19:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.607997
- Title: Output-Level Regularization Eliminates the Seed Lottery in Single-GPU VLA Fine-Tuning
- Title(参考訳): 単一GPUVLAファインチューニングにおける出力レベル正規化による種子ロットの除去
- Authors: Jeffrin Sam, Dzmitry Tsetserukou,
- Abstract要約: 単一のGPU上でビジョンアクションモデル(VLAJEPA)を微調整するのは簡単だ。
12回のランで91が94%の確率で成功し、1回のランで65.2%に低下する。
動作予測器は、ロボットが見ているものに関係なく、ほとんど同じ出力を生成することを静かに学習します。
- 参考スコア(独自算出の注目度): 2.6773274309393145
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-tuning a vision-language-action model (VLA-JEPA) on a single GPU should be simple: load a pretrained checkpoint, run training, deploy. There is a hidden danger. Run the same fine-tuning code thirteen times -- same data, same architecture, different random seed -- and twelve runs produce a robot succeeding 91--94% of the time, while one run silently degrades to 65.2%: a 29 pp gap with no error message, no warning, and no way to predict which seed will fail. We call this the seed lottery. We trace the cause to output collapse: the action predictor quietly learns to produce nearly identical outputs regardless of what the robot sees. Existing weight-level methods (L2, EWC) are structurally blind to this collapse -- they penalize weight changes, but collapse occurs in directions weights can move freely without affecting outputs, a gap we formalize via the Jacobian null-space. Across 7 methods x up to 13 seeds x 3 LIBERO benchmarks, three output-level regularizers -- VICReg (n=12 seeds), Dropout (n=4), and a halved learning rate (n=5) -- each eliminate every catastrophic seed (0/21 combined collapses vs. 1/13 Baseline; F(12,11)=28.7, p<0.001), while weight-level methods (L2, EWC) preserve the lottery. The simplest fix is changing one number in your optimizer config.
- Abstract(参考訳): 単一のGPU上での視覚言語アクションモデル(VLA-JEPA)の微調整は単純でなければならない。
隠れた危険があります。
同じ微調整コード(同じデータ、同じアーキテクチャ、異なるランダムシード)を13回実行し、12回実行すると、91~94%の確率でロボットを成功させる。
これを種宝くじと呼ぶ。
動作予測器は、ロボットが見ているものに関係なく、ほとんど同じ出力を生成することを静かに学習します。
既存のウェイトレベル法(L2, EWC)は、この崩壊に対して構造的に盲目であり、重量変化を罰するが、ウェイトが出力に影響を与えることなく自由に動く方向に崩壊する。
Across 7 method x to 13 seed x 3 LIBERO benchmarks, three output-level regularizers -- VICReg (n=12 seed), Dropout (n=4 seed), a halved learning rate (n=5) -- それぞれ、破滅的シード (0/21 combined collapses vs. 1/13 Baseline; F(12,11)=28.7, p<0.001) を除去し、ウェイトレベルメソッド (L2, EWC) は宝くじを保存する。
最も簡単な修正は、オプティマイザ設定で1つの番号を変更することです。
関連論文リスト
- Structure from Reasoning, Numbers from Search: On-Premise Open LLMs as Structural Priors for Coupled MIMO Controller Tuning [12.654595982289143]
強い結合型マルチインプット・マルチアウトプット(IMO)ループのためのチューニングコントローラは困難である。
強結合型マルチインプット・マルチアウトプット(IMO)ループのチューニング制御は困難であることを示す。
論文 参考訳(メタデータ) (2026-06-09T15:53:40Z) - From Patches to Trajectories: Privileged Process Supervision for Software-Engineering Agents [56.31499185764872]
教師の長い軌道上の監督された微調整(SFT)は、オープンソフトウェアエンジニアリング(SWE)エージェントに調査と推論を浸透させる主要な方法である。
本稿では,P2T (Patches-to-Trajectories) を提案する。P2T (Patches-to-Trajectories) は,P2T (Patches-to-Trajectories) において,P2T (Patches-to-Trajectories) とP2T (Patches-to-Trajectories) の2つの最適化法である。
論文 参考訳(メタデータ) (2026-05-21T04:54:55Z) - Mining Subscenario Refactoring Opportunities in Behaviour-Driven Software Test Suites: ML Classifiers and LLM-Judge Baselines [1.9537983097153042]
振る舞い駆動開発(BDD)ソフトウェアテストスイートは、重複したステップサブシーケンスを蓄積します。
3つのパブリッシュパターンが利用可能である(ファイルの背景、再利用可能な再利用可能なシナリオ呼び出し、組織間の共有高レベルステップ)。
繰り返し続くサブシーケンスが抽出に値するか、どのメカニズムが適用されるかを自動化する前の作業はありません。
論文 参考訳(メタデータ) (2026-05-14T08:38:04Z) - Revisiting Auxiliary Losses for Conditional Depth Routing: An Empirical Study [31.968379218484746]
ゲート決定は、言語モデリング(LM)の損失に影響を与える前に、多くのレイヤを通して伝播しなければならない。
補助的な損失はトレーニングを安定させるために積み重ねられることが多いが、それらの間の相互作用、特に予測的な補助的なスコアと明示的なスコアの監督の間の相互作用は、制御された条件下で体系的に比較されていない。
これは、後続のすべてのレイヤがフルに実行されると仮定する、オフポリティのオラクルラベルにトレースしますが、ゲートされた実行ルートはフルに1分しかありません。
論文 参考訳(メタデータ) (2026-04-19T03:20:40Z) - Batch Speculative Decoding Done Right [6.388537448371643]
投機的復号化は、小さなドラフトモデルを用いてLLM推論を高速化し、ターゲットモデルが並列に検証する複数のトークンを提案する。
同じバッチ内のシーケンスは、異なる数のドラフトトークンを受け取り、右アライメントを破り、位置IDを破損させ、アテンションマスク、KV-cache状態となる。
いくつかの既存のバッチ実装が出力等価性に反していることが示され、投機的復号化は標準的な自己回帰生成と同一のトークンシーケンスを生成する必要があるという基本的な要件が示される。
論文 参考訳(メタデータ) (2025-10-26T23:59:23Z) - Robustness of deep learning classification to adversarial input on GPUs: asynchronous parallel accumulation is a source of vulnerability [4.054484966653432]
機械学習(ML)分類モデルの安全性と信頼性の重要な尺度は、小さな、ターゲットとする入力摂動に抵抗する能力である。
浮動小数点非連想性がGPU上での非同期並列プログラミングと結合し,誤分類を生じさせることを示す。
また, 機械レベルの詳細を考慮しない場合, 標準対向ロバスト性は4.6まで過大評価されることが示唆された。
論文 参考訳(メタデータ) (2025-03-21T14:19:45Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。