論文の概要: InSight: Self-Guided Skill Acquisition via Steerable VLAs
- arxiv url: http://arxiv.org/abs/2606.24884v1
- Date: Tue, 23 Jun 2026 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.137463
- Title: InSight: Self-Guided Skill Acquisition via Steerable VLAs
- Title(参考訳): InSight:ステアブルVLAによるセルフガイドスキル獲得
- Authors: Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa, Jiajun Wu, Mac Schwager,
- Abstract要約: 視覚言語アクション(VLA)モデルは、デモンストレーションから操作スキルを学ぶことができるが、その能力はトレーニングデータのスキルによって制限される。
本稿では,VLAをプリミティブアクションレベルで操作可能にすることで,自律的なスキル獲得を実現するフレームワークであるInSightを紹介する。
InSightは、ブロックフリップ、引き出しのクローズ、掃除、ねじれ、注水など、シミュレーションおよび実世界の操作タスクにまたがって評価する。
- 参考スコア(独自算出の注目度): 17.61581994598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language-action (VLA) models can learn manipulation skills from demonstrations, but their capabilities are bounded by the skills in the training data. We present InSight, a framework that unlocks autonomous skill acquisition by rendering VLAs steerable at the primitive-action level (e.g., "move gripper to the bowl", "lift upward", "pour the bottle"). InSight consists of two primary stages: (1) an automated segmentation pipeline that partitions demonstrations into labeled primitives via VLM plan decomposition and end-effector poses to enable VLA primitive steerability, and (2) a VLM-guided data flywheel that identifies missing primitives required to accomplish a novel task, autonomously attempts demonstrations of the missing primitives with VLM-proposed low-level control, and automatically labels, stores, and integrates successful demonstrations into the VLA training set. We evaluate InSight across simulation and real-world manipulation tasks, including block flipping, drawer closing, sweeping, twisting, and pouring, without any human demonstrations of these target skills. Once learned, these primitives can be composed to execute novel, long-horizon tasks without additional human demonstrations. Our findings demonstrate that primitive steerability provides a practical foundation for continual skill acquisition in VLA policies. Project website: https://insight-vla.github.io.
- Abstract(参考訳): 視覚言語アクション(VLA)モデルは、デモンストレーションから操作スキルを学ぶことができるが、その能力はトレーニングデータのスキルによって制限される。
InSightは、プリミティブアクションレベルでVLAを操れるようにすることで、自律的なスキル獲得を解き放つフレームワークである。
InSightは、(1)VLM計画分解とエンドエフェクタによるデモをラベル付きプリミティブに分割してVLAのプリミティブステアビリティを実現する自動セグメンテーションパイプライン、(2)新しいタスクを達成するのに必要な欠落プリミティブを識別するVLM誘導データフライホイール、そして、VLMが提案する低レベル制御による欠落プリミティブのデモを自律的に試み、そして、VLAのトレーニングセットに自動的にラベル、ストア、そして成功事例を統合する。
InSightは、ブロックフリップ、引き出しのクローズ、掃除、ひねり、注ぐなど、シミュレーションや実世界の操作タスクにまたがって評価する。
一度学習すると、これらのプリミティブは人間のデモンストレーションを伴わずに、新規で長期にわたるタスクを実行するために構成できる。
以上の結果から,プリミティブステアビリティは,VLA政策における継続的スキル獲得の実践的基盤となることが示唆された。
プロジェクトウェブサイト: https://insight-vla.github.io
関連論文リスト
- Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data [93.7685703383343]
視覚言語モデル(VLM)は強力な汎用推論器であるが、ロボット制御ポリシーに変換することは驚くほど難しい。
このギャップは、適切な中間データで徐々にブリッジできると我々は主張する。
本研究では,タスク関連アウト・オブ・ディストリビューションETCデータと少量のアクションデータとを混合することにより,新しい視覚言語条件に一般化できることを示す。
論文 参考訳(メタデータ) (2026-06-07T08:57:51Z) - DIAL: Decoupling Intent and Action via Latent World Modeling for End-to-End VLA [72.9197085473598]
DIALはハイレベルな意思決定と低レベルなモーター実行を、差別化可能な潜在意図ボトルネックを通じてブリッジするフレームワークである。
VLMベースのSystem-2は、VLMのネイティブな特徴空間内で、潜伏した視覚的フォレストによって潜伏世界モデリングを行う。
軽量のSystem-1ポリシーでは、この予測された意図と現在の観測結果を正確にロボットの動作にデコードする。
論文 参考訳(メタデータ) (2026-03-31T15:02:27Z) - StageCraft: Execution Aware Mitigation of Distractor and Obstruction Failures in VLA Models [2.1874189959020423]
大規模視覚言語モデル(VLM)のインターネットスケール事前学習が,これらの障害の解明と政策失敗の軽減に有効かどうかを検討する。
プレトレーニング済みのVLAポリシー性能を改善するためのトレーニング不要のアプローチであるStageCraftを提案する。
種々の障害や障害を伴う実世界の3つのタスク領域に対して,絶対40%のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2026-03-21T05:30:15Z) - On-the-Fly VLA Adaptation via Test-Time Reinforcement Learning [61.38273866396522]
ビジョン・ランゲージ・アクションモデルが汎用ロボット学習の強力なパラダイムとして登場した。
現在の手法は、シミュレーションや物理世界の展開に挑戦するには相変わらず適していない。
本稿では,VLA フレームワークのテスト時間強化学習について紹介する。
論文 参考訳(メタデータ) (2026-01-11T01:51:30Z) - EVOLVE-VLA: Test-Time Training from Environment Feedback for Vision-Language-Action Models [57.75717492488268]
VLA(Vision-Language-Action)モデルは、大きな言語モデルを活用することで高度なロボット操作を行う。
Supervised Finetuning (SFT) では、タスク毎の数百のデモ、厳格に軌跡を記憶すること、デプロイメント条件がトレーニングから逸脱したときに適応できないことなどが求められている。
EVOLVE-VLA(EVOLVE-VLA)は、VLAが最小またはゼロのタスク固有のデモで環境相互作用を通じて継続的に適応できるテストタイムトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-12-16T18:26:38Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge [14.143521529613533]
視覚言語アクション(VLA)モデルは、ロボット工学の次世代モデルとして登場した。
既存のエンドツーエンドのVLAシステムは、モデルが特定のロボットタスクに適応するため、微調整中に重要な機能を失うことが多い。
一般化可能なVLAモデルは、VLMのコア能力を維持し拡張するべきである。
論文 参考訳(メタデータ) (2025-05-28T02:48:42Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。