論文の概要: Semi-Supervised Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2606.21493v1
- Date: Fri, 19 Jun 2026 14:42:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:08:00.929194
- Title: Semi-Supervised Vision-Language-Action Model
- Title(参考訳): 半スーパービジョン・ランゲージ・アクションモデル
- Authors: Hongyang He, Jiuming Liu, Victor Sanchez,
- Abstract要約: VLA(Vision-Language-Action)モデルは、ロボットが視覚的な観察や言語指示から直接アクションを予測することを可能にするが、それらを新しい環境に適用することは、コストのかかるアクションラベルによるデモンストレーションに依存する。
限定的な監視信号の下で準教師付きVLA適応について検討し、少数の軌道だけがロボットの動作を含み、残りの軌道はアクション未ラベルの視覚言語観測を提供する。
標準的な半教師あり学習とは異なり、視覚的に接地し、言語に一貫性があり、物理的に実現可能で、時間的に安定な動作信号である。
- 参考スコア(独自算出の注目度): 17.893249958828218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models enable robots to predict actions directly from visual observations and language instructions, but adapting them to new environments still depends on costly action-labeled demonstrations. To reduce this dependence, we study semi-supervised VLA adaptation under limited supervision signals, where only a small portion of trajectories contain robot actions and the remaining trajectories provide action-unlabeled vision-language observations. Unlike standard semi-supervised learning, the missing supervision is an embodied action signal that must be visually grounded, language-consistent, physically feasible, and temporally stable. To address this problem, we propose SemiVLA, a self-distilled teacher-student framework that learns from reliable pseudo-actions on unlabeled trajectories. SemiVLA introduces a VLA-specific reliability controller to assess vision-language alignment, action feasibility, and temporal transition consistency, and further updates the teacher through a Bottleneck-Projected Alignment Update to avoid noisy feedback contamination. With OpenVLA as the backbone, SemiVLA consistently improves multiple PEFT strategies across LIBERO and CALVIN. Under 10\% labeled trajectories, SemiVLA with Selective LoRA achieves 89.0\% average success on LIBERO, outperforming supervised LoRA by 8.0 points without extra inference cost.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボットが視覚的な観察や言語指示から直接アクションを予測することを可能にするが、それらを新しい環境に適用することは、コストのかかるアクションラベルによるデモンストレーションに依存する。
そこで本研究では,ロボット動作を含む軌道のごく一部と,残りの軌道が動作未ラベルの視覚言語観測を行う場合の,限定的な監視信号に基づく半教師付きVLA適応について検討する。
標準的な半教師あり学習とは異なり、視覚的に接地し、言語に一貫性があり、物理的に実現可能で、時間的に安定な動作信号である。
この問題に対処するために,未ラベル軌道上の疑似行動から学習する自己拡散型教師学生用フレームワークであるSemiVLAを提案する。
SemiVLAは、視覚言語アライメント、アクション実現可能性、時間遷移一貫性を評価するVLA固有の信頼性コントローラを導入し、さらにBottleneck-Projected Alignment Updateを通じて教師をアップデートし、ノイズの多いフィードバック汚染を避ける。
OpenVLAをバックボーンとして、SemiVLAは一貫してLIBEROとCALVINの複数のPEFT戦略を改善している。
ラベル付き軌道の10\%以下では、Selective LoRAのSemiVLAはLIBEROで89.0\%の平均的な成功を達成し、追加の推論コストなしで監督されたLoRAを8.0ポイント上回る。
関連論文リスト
- QuoVLA: Quotient Space for Vision-Language-Action Models [51.02329790939691]
VLA(Vision-Language-Action)モデルは、視覚的な観察と言語指示を連続的な行動にマッピングすることで、トレーニング済みのVLM潜伏者をロボット制御に適応させることが一般的である。
VLA の textitQuotient Theory は、事前訓練された VLM 潜伏剤は、アクションに十分ではないがアクションに十分であることを示している。
提案するQuoVLAは,事前学習されたVLMラテントを動作十分表現に圧縮する,VLAの商空間フレームワークである。
論文 参考訳(メタデータ) (2026-05-24T06:28:53Z) - LoopVLA: Learning Sufficiency in Recurrent Refinement for Vision-Language-Action Models [13.30873593845724]
LoopVLAは、表現の洗練、アクション予測、十分性推定を学習する、リカレントなVision-Language-Actionアーキテクチャである。
この結果から,LoopVLAはVLAポリシーの効率性向上のフロンティアを推し進め,パラメータを45%削減し,推論スループットを最大1.7倍向上させることを示した。
論文 参考訳(メタデータ) (2026-05-11T03:51:22Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - Counterfactual VLA: Self-Reflective Vision-Language-Action Model with Adaptive Reasoning [71.19675094463834]
この作業では、モデルが実行前に計画されたアクションを推論し、修正することを可能にする、自己修正型のVLAフレームワークである、Counterfactual VLAを導入している。
CF-VLAはまず、駆動意図を要約した時間分割メタアクションを生成し、その後、メタアクションと視覚コンテキストの両方で条件付けられた反実的推論を実行する。
大規模運転データセットの実験では、CF-VLAは軌道精度を最大17.6%向上し、安全基準を20.5%向上し、適応的思考を示す。
論文 参考訳(メタデータ) (2025-12-30T19:04:17Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。