論文の概要: Task Robustness via Re-Labelling Vision-Action Robot Data
- arxiv url: http://arxiv.org/abs/2606.10918v1
- Date: Tue, 09 Jun 2026 14:28:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.551084
- Title: Task Robustness via Re-Labelling Vision-Action Robot Data
- Title(参考訳): 視覚行動ロボットデータの再ラベル化によるタスクロバストネス
- Authors: Artur Kuramshin, Özgür Aslan, Cyrus Neary, Glen Berseth,
- Abstract要約: 本稿では,既存のロボットデータセットを拡張可能なスケーラブルなフレームワークであるRe-Labelling Vision-Action Robot Data (TREAD)によるタスクロバストネスについて紹介する。
提案手法では,従来の命令ラベルと初期シーンからセマンティックなサブタスクを生成し,これらのサブタスクに条件付けされたデモビデオを分割し,オブジェクトプロパティを組み込んだ多様なインストラクションを生成する。
以上の結果から,TREADは軌道分解による計画一般化と言語多様性の向上による言語条件付き政策一般化の両立を図っている。
- 参考スコア(独自算出の注目度): 15.985610886484226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent trend in scaling models for robot learning has resulted in impressive policies that can perform various manipulation tasks and generalize to novel scenarios. However, these policies continue to struggle with following instructions, likely due to the limited linguistic and action sequence diversity in existing robotics datasets. This paper introduces Task Robustness via Re-Labelling Vision-Action Robot Data (TREAD), a scalable framework that leverages large Vision-Language Models (VLMs) to augment existing robotics datasets without additional data collection, harnessing the transferable knowledge embedded in these models. Our approach leverages a pretrained VLM through three stages: generating semantic sub-tasks from original instruction labels and initial scenes, segmenting demonstration videos conditioned on these sub-tasks, and producing diverse instructions that incorporate object properties, effectively decomposing longer demonstrations into grounded language-action pairs. We further enhance robustness by augmenting the data with linguistically diverse versions of the text goals. Evaluations on LIBERO demonstrate that policies trained on our augmented datasets exhibit improved performance on novel, unseen tasks and goals. Our results show that TREAD enhances both planning generalization through trajectory decomposition and language-conditioned policy generalization through increased linguistic diversity.
- Abstract(参考訳): 最近のロボット学習のスケーリングモデルの動向は、様々な操作タスクを実行し、新しいシナリオに一般化できる印象的なポリシーをもたらしている。
しかしながら、これらのポリシーは、既存のロボティクスデータセットの言語的および行動的シーケンスの多様性が限られているため、以下の指示に苦慮し続けている。
本稿では,大規模ビジョンランゲージモデル(VLM)を活用するスケーラブルなフレームワークであるRe-Labelling Vision-Action Robot Data (TREAD)によるタスクロバストネスについて紹介する。
提案手法では,従来の命令ラベルと初期シーンからセマンティックなサブタスクを生成し,これらのサブタスクに条件付けされたデモビデオを分割し,オブジェクト特性を組み込んだ多種多様なインストラクションを生成し,より長いデモをグラウンド化された言語とアクションのペアに効果的に分解する。
言語的に多種多様なテキスト目標を用いてデータを増強することにより、ロバスト性をさらに強化する。
LIBEROの評価は、拡張データセットでトレーニングされたポリシーが、新規で目に見えないタスクや目標のパフォーマンスを向上させることを示した。
以上の結果から,TREADは軌道分解による計画一般化と言語多様性の向上による言語条件付き政策一般化の両立を図っている。
関連論文リスト
- Proprioception Enhances Vision Language Model in Generating Captions and Subtask Segmentations for Robot Task [3.4735198125706326]
ビジョン言語モデル(VLM)は、トレーニングデータセットにロボットからの低レベルのモーション情報を含まない。
本研究では,低レベルロボット動作情報を用いたビデオキャプションタスクにより,VLMの2つの機能を評価する。
論文 参考訳(メタデータ) (2025-12-24T01:36:12Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - LARG, Language-based Automatic Reward and Goal Generation [8.404316955848602]
テキストベースのタスク記述をそれに対応する報酬とゴール生成関数に変換するアプローチを開発する。
ロボット操作に対する我々のアプローチを評価し、スケーラブルな方法でポリシーを訓練および実行できることを実証する。
論文 参考訳(メタデータ) (2023-06-19T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。