論文の概要: VICX: Generalizable Robot Manipulation via Video Generation and In-Context Operator Network
- arxiv url: http://arxiv.org/abs/2606.12028v1
- Date: Wed, 10 Jun 2026 12:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 14:21:24.060192
- Title: VICX: Generalizable Robot Manipulation via Video Generation and In-Context Operator Network
- Title(参考訳): VICX:ビデオ生成とインコンテキストオペレータネットワークによる汎用ロボット操作
- Authors: Song Chen, Linyan Xiang, Ying Zhou, Liu Yang,
- Abstract要約: Video-to-Trajectory In-Context Operator Network (V2T-ICON) は、タスクに依存しないインタフェースとして機能する。
V2T-ICONは、セグメンテーション抽出アームのみのフレーム観察で動作し、検索された画像状態ペアをインコンテキストプロンプトとして使用する。
Meta-Worldの実験によると、VICXはクロスタスクの一般化、クローズドループ自己補正、クロス・エボディメント・トランスファーをサポートする。
- 参考スコア(独自算出の注目度): 24.78756946747593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable robot manipulation requires not only task-level reasoning over unseen scenes, but also reliable grounding of visual plans into embodiment-specific execution. To bridge this gap, we propose VICX (Video generation and In-Context eXecution), a decoupled closed-loop manipulation framework. In VICX, a frozen video generation model produces vision-language-conditioned high-level visual plans, while a Video-to-Trajectory In-Context Operator Network (V2T-ICON) serves as the task-agnostic interface that grounds these plans into executable robot-state trajectories. To improve execution generalization, V2T-ICON operates on segmentation-extracted arm-only frame observations and uses retrieved image-state pairs as in-context prompts, allowing a robust and generalizable visual-to-state mapping at inference time without parameter updates. Experiments on Meta-World show that VICX supports cross-task generalization, closed-loop self-correction, and cross-embodiment transfer, demonstrating dual generalization across both task semantics and robot execution. The project webpage can be found here: https://scaling-group.github.io/vicx/.
- Abstract(参考訳): 一般化可能なロボット操作には、見えないシーンに対するタスクレベルの推論だけでなく、視覚的な計画の具体的実行に対する信頼性の高い根拠も必要である。
このギャップを埋めるために、分離されたクローズドループ操作フレームワークであるVICX(ビデオ生成とIn-Context eXecution)を提案する。
VICXでは、凍結したビデオ生成モデルが視覚言語で条件付き高レベルなヴィジュアルプランを生成する一方、V2T-ICON(Video-to-Trajectory In-Context Operator Network)は、これらのプランを実行可能なロボット状態のトラジェクトリに基盤付けるタスク非依存のインターフェースとして機能する。
実行の一般化を改善するため、V2T-ICONはセグメンテーション抽出されたアームオンリーのフレーム観測を実行し、取得した画像と状態のペアをコンテキスト内のプロンプトとして使用し、パラメータ更新なしで推論時に堅牢で一般化可能なビジュアルと状態のマッピングを可能にする。
Meta-Worldの実験では、VICXはクロスタスクの一般化、クローズドループの自己補正、クロスエボディメント転送をサポートし、タスクセマンティクスとロボットの実行の両方で二重の一般化を実証している。
プロジェクトのWebページは以下の通りである。
関連論文リスト
- Two Bridges, One Pathway: From VLMs to Generalizable VLAs with Embodied Trajectory-Coupled Data [93.7685703383343]
視覚言語モデル(VLM)は強力な汎用推論器であるが、ロボット制御ポリシーに変換することは驚くほど難しい。
このギャップは、適切な中間データで徐々にブリッジできると我々は主張する。
本研究では,タスク関連アウト・オブ・ディストリビューションETCデータと少量のアクションデータとを混合することにより,新しい視覚言語条件に一般化できることを示す。
論文 参考訳(メタデータ) (2026-06-07T08:57:51Z) - SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution [61.612676324369595]
画像編集モデルがロボット操作のための疎視世界モデルとして機能するかどうかを考察する。
本稿では,一括予測型視覚計画フレームワークSWEETを提案する。
DROIDとRoboMimicの実験では、SWEETは見知らぬシーンの予測を改善している。
論文 参考訳(メタデータ) (2026-05-19T03:54:46Z) - VAG: Dual-Stream Video-Action Generation for Embodied Data Synthesis [35.55805069125473]
視覚・言語条件下でビデオとアクションを協調的に生成する,フローマッチングに基づく統合型デュアルストリームフレームワークを提案する。
シミュレーションと実世界の両方の設定で、VAGは競合予測品質を備えた協調したビデオアクションペアを生成し、実行可能な軌道再生をサポートし、有用な合成事前学習データを提供する。
論文 参考訳(メタデータ) (2026-04-10T13:59:54Z) - V-CAGE: Vision-Closed-Loop Agentic Generation Engine for Robotic Manipulation [6.820118518027692]
本稿では,自律型ロボットデータ合成のためのエージェントフレームワークであるV-CAGEを提案する。
従来のスクリプトパイプラインとは異なり、V-CAGEはエンボディ化されたエージェントシステムとして動作する。
大規模ビデオデータセットのストレージボトルネックを克服するために、知覚駆動圧縮アルゴリズムを実装した。
論文 参考訳(メタデータ) (2026-04-10T06:56:17Z) - Image Generation as a Visual Planner for Robotic Manipulation [0.0]
リアルなロボット操作ビデオを生成することは、エンボディエージェントの知覚、計画、行動を統合するための重要なステップである。
本稿では,(1)言語命令と第1フレームを使用するテキスト条件生成と,(2)2次元トラジェクトリオーバーレイと同一初期フレームを使用するトラジェクトリ条件生成とを含む2部構成のフレームワークを提案する。
以上の結果から,予め訓練した画像生成装置は,移動可能な時間的先行を符号化し,最小限の監督下でビデオライクなロボットプランナーとして機能する可能性が示唆された。
論文 参考訳(メタデータ) (2025-11-29T15:54:16Z) - Precise Action-to-Video Generation Through Visual Action Prompts [62.951609704196485]
アクション駆動のビデオ生成は、精度と一般性のトレードオフに直面している。
エージェント中心のアクション信号は、クロスドメイン転送可能性のコストで精度を提供する。
私たちはアクションをドメインに依存しない表現として正確に視覚的なプロンプトに"レンダリング"します。
論文 参考訳(メタデータ) (2025-08-18T17:12:28Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation [68.11862866566817]
3D対応のポリシーは、精密なロボット操作タスクにおいて最先端のパフォーマンスを実現するが、見えない指示、シーン、オブジェクトへの一般化に苦慮している。
我々は,視覚言語行動モデル(VLA)の一般化強度と3D対応ポリシーの堅牢性を組み合わせた,新しいアーキテクチャと学習フレームワークであるOG-VLAを紹介する。
論文 参考訳(メタデータ) (2025-06-01T22:15:45Z) - RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。
シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文 参考訳(メタデータ) (2025-04-02T19:02:08Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
Aguvisは、自律的なGUIエージェントのためのビジョンベースのフレームワークである。
クロスプラットフォームのインタラクションを標準化し、内部モノローグによる構造化推論を取り入れている。
オフラインおよび実世界のオンラインベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。