論文の概要: FiberTune: Preserving Action-Fiber Visual Residuals in Vision-Language-Action Fine-Tuning
- arxiv url: http://arxiv.org/abs/2606.08653v1
- Date: Sun, 07 Jun 2026 14:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.31653
- Title: FiberTune: Preserving Action-Fiber Visual Residuals in Vision-Language-Action Fine-Tuning
- Title(参考訳): FiberTune:視覚・言語・アクションファインチューニングにおけるアクション・ファイバ・残像の保存
- Authors: Haihao Lin, Xiangsheng Huang, Xiao Yang, Weibang Zhou, Yiqi Zhang, Bo Yang, Simin Zeng, Jiawei Yang, Zhengyang Wang, Jiahui Du,
- Abstract要約: 視覚言語アクション(VLA)ポリシーのアクション監督による微調整は、デモンストレーションに効果的に適合するが、予測されたアクションを変更する方向のみを制約し、アクション等価な状態間で視覚構造は安定して崩壊する。
我々はこれを局所的なアクションファイバーに沿った残留視覚的崩壊として定式化し、推論時間オーバーヘッドを加えることなく教師が構成した視覚的残差を保存する訓練時間目標であるFiberTuneを提案する。
- 参考スコア(独自算出の注目度): 19.60439283341241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action-supervised fine-tuning of vision-language-action (VLA) policies fits demonstrations effectively but constrains only the directions that change predicted actions, leaving visual structure consistent across action-equivalent states free to collapse. We formalize this as residual visual collapse along local action fibers and propose FiberTune, a training-time objective that preserves teacher-structured visual residuals without adding inference-time overhead. FiberTune uses an online action probe to estimate action-predictive feature directions, filters them from intermediate visual-token representations, and aligns the resulting probe-filtered residuals to a frozen visual teacher while regularizing their effective rank. Under identical training conditions, FiberTune improves over task-loss-only fine-tuning in every one of six controlled simulation settings spanning two benchmarks and two architectures (pi_0.5 and OpenVLA-OFT), as well as on physical SO-101 pick-place; representative gains include +10.7 percentage points SR(5) on long-horizon CALVIN ABC-to-D and physical SO-101 task success rising from 72.7% to 78.1%. Residual diagnostics show that these gains coincide with increased probe-filtered residual teacher alignment and effective rank, consistent with the action-fiber motivation.
- Abstract(参考訳): 視覚言語アクション(VLA)ポリシーのアクション監督による微調整は、デモンストレーションに効果的に適合するが、予測されたアクションを変更する方向のみを制約し、アクション等価な状態間で視覚構造は安定して崩壊する。
我々はこれを局所的なアクションファイバーに沿った残留視覚的崩壊として定式化し、推論時間オーバーヘッドを加えることなく教師が構成した視覚的残差を保存する訓練時間目標であるFiberTuneを提案する。
FiberTuneは、オンラインアクションプローブを使用して、アクション予測の特徴方向を推定し、それらを中間的な視覚的トーケン表現からフィルタリングし、結果のプローブフィルタリング残差を凍結された視覚教師に調整し、その効果的なランクを正規化します。
同じトレーニング条件下では、FiberTuneは2つのベンチマークと2つのアーキテクチャ(pi_0.5とOpenVLA-OFT)にまたがる6つの制御されたシミュレーション設定の1つごとにタスクロスのみの微調整を改善し、物理的SO-101のピックプレースも改善した。
残留診断は、これらの利得が、プローブフィルターによる残差教師のアライメントの増加と、アクション・ファイバのモチベーションと整合した効果的なランクに一致していることを示している。
関連論文リスト
- Potential-Guided Flow Matching for Vision-Language-Action Policy Improvement [27.695600755960736]
自己誘導型フローマッチングポリシであるForesightFlowを紹介した。
それぞれの生成されたアクションチャンクを、学習された成功可能性軌道で拡張する。
候補アクションをスコア付けし、外部の批評家なしで$K$の推論を可能にする。
論文 参考訳(メタデータ) (2026-06-03T14:49:35Z) - Prefix Teach, Suffix Fade: Local Teachability Collapse in Strong-to-Weak On-Policy Distillation [49.117085054884676]
オンライン蒸留は、より強い教師からの強いフィードバックを使って、学生モデルを独自のロールアウトで訓練する。
我々は、この原則を軌跡固有のリリースルールで運用する。
強弱蒸留作業による実験結果から, この放出規則は標準全軌道PDよりも一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-05-13T15:05:30Z) - LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - Unified Spatio-Temporal Token Scoring for Efficient Video VLMs [61.08183446817756]
トケンプルーニングは視覚言語モデルの計算効率を高めるために不可欠である。
本稿では,視覚トークンを ViT と LLM の両方にわたってプルークする,シンプルで軽量なモジュールである Spatio-Temporal Token Scoring (STTS) を紹介する。
STTSはアーキテクチャ全体の視覚トークンの50%を突破し、トレーニングと推論の両方で効率が62%向上した。
論文 参考訳(メタデータ) (2026-03-18T17:59:56Z) - OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation [39.548179971747906]
ドメイン固有の微調整は、高密度レトリバーにとって不可欠であるが、すべてのトレーニングペアが学習プロセスに等しく貢献するわけではない。
我々は、この不均一性を利用して、検索モデル適応の有効性と効率を両立させるデータプルーニングフレームワークであるOPERAを紹介する。
論文 参考訳(メタデータ) (2026-03-17T23:11:45Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Self-critical Sequence Training for Automatic Speech Recognition [25.06635361326706]
本稿では,自己臨界シーケンストレーニング(SCST)と呼ばれる最適化手法を提案する。
強化学習(RL)に基づく手法として、SCSTはトレーニング基準とWERを関連付けるために、カスタマイズされた報酬関数を利用する。
その結果,提案したSCSTは,WERの基準値に対して,それぞれ8.7%,7.8%の相対的な改善が得られた。
論文 参考訳(メタデータ) (2022-04-13T09:13:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。