論文の概要: Robotic Policy Adaptation via Weight-Space Meta-Learning
- arxiv url: http://arxiv.org/abs/2606.07217v1
- Date: Fri, 05 Jun 2026 12:29:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.734336
- Title: Robotic Policy Adaptation via Weight-Space Meta-Learning
- Title(参考訳): 軽量空間メタラーニングによるロボット政策適応
- Authors: Christian Bianchi, Siamak Yousefi, Alessio Sampieri, Andrea Roberti, Luca Rigazio, Fabio Galasso, Luca Franco,
- Abstract要約: WIZARDは、凍結VLAポリシーのためのタスク固有のLoRAパラメータを生成することで、タスク固有の微調整をサイドステップする。
メタトレーニング中、WIZARDはタスクエビデンスを直接専門家のLoRAアップデートにマップすることを学ぶ。
実験の結果、WIZARDは見えないデータセットのコレクションでは最大2倍、見えないタスクでは最大14倍の性能向上を示している。
- 参考スコア(独自算出の注目度): 10.867247751424891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models are emerging as a promising paradigm for robotic manipulation, enabling general-purpose policies trained from large corpora of demonstrations and action labels. However, adapting these models to new tasks still typically requires task-specific demonstrations, action annotations, and additional fine-tuning, making deployment costly and difficult to scale. We propose WIZARD, a weight-space meta-learning framework that sidesteps task-specific fine-tuning by generating task-specific LoRA parameters for a frozen VLA policy. Given only a language instruction and a short demonstration video, WIZARD predicts the corresponding adaptation weights in a single forward pass, without target-task action labels or test-time optimization. During meta-training, WIZARD learns to map task evidence directly to expert LoRA updates, capturing relationships between tasks in weight space. Experiments on LIBERO show that WIZARD improves performance by up to ~2x on unseen dataset collections and up to ~14x on unseen tasks. On a Franka Emika Panda, WIZARD consistently improves over a real-domain adapted baseline, showing that generated adapters provide task-level specialization beyond simulation.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、ロボット操作のための有望なパラダイムとして登場し、大規模なデモコーパスとアクションラベルからトレーニングされた汎用的なポリシーを可能にしている。
しかしながら、これらのモデルを新しいタスクに適用するには、通常、タスク固有のデモ、アクションアノテーション、追加の微調整が必要で、デプロイメントのコストとスケールが難しくなる。
凍結VLAポリシーのためのタスク固有のLoRAパラメータを生成することでタスク固有の微調整をサイドステップする、重量空間メタラーニングフレームワークWIZARDを提案する。
言語命令と短いデモビデオのみを前提として、WIZARDはターゲットタスクアクションラベルやテストタイム最適化を使わずに、単一の前方パスで対応する適応重みを予測する。
メタトレーニング中、WIZARDはタスクエビデンスを直接専門家のLoRA更新にマップし、重み空間内のタスク間の関係をキャプチャする。
LIBEROの実験では、WIZARDは、見えないデータセットのコレクションでは最大2倍、見えないタスクでは最大14倍の性能向上を示している。
フランカ・エミカ・パンダでは、WIZARDは実際のドメイン適応ベースラインを一貫して改善し、生成されたアダプタがシミュレーション以上のタスクレベルの特殊化を提供することを示した。
関連論文リスト
- CLARE: Continual Learning for Vision-Language-Action Models via Autonomous Adapter Routing and Expansion [9.808005698482914]
CLAREは、視覚-言語-アクションモデルによる模範のない連続学習のためのフレームワークである。
CLAREは,従来のタスクを壊滅的に忘れることなく,新しいタスクにおいて高いパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-01-14T14:23:42Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - From Instance Training to Instruction Learning: Task Adapters Generation from Instructions [29.452006810725184]
本稿では,事例学習の欠点に対処するために,人間の学習をシミュレートすることに焦点を当てる。
タスク固有のモデルを自動的に構築するTAGI(Task Adapters from Instructions)を導入する。
超自然的インストラクションとP3データセットを用いたTAGIの評価を行った。
論文 参考訳(メタデータ) (2024-06-18T08:14:28Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。