論文の概要: World Model Self-Distillation: Training World Models to Solve General Tasks
- arxiv url: http://arxiv.org/abs/2606.12072v1
- Date: Wed, 10 Jun 2026 13:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.47799
- Title: World Model Self-Distillation: Training World Models to Solve General Tasks
- Title(参考訳): World Model Self-Distillation: 一般的な課題を解決するための世界モデルトレーニング
- Authors: Sebastian Stapf, Pablo Acuaviva Huertos, Aram Davtyan, Paolo Favaro,
- Abstract要約: 本稿では,自己蒸留と強化学習を組み合わせることで,事前学習ビデオモデルにおけるタスク解決能力を実現するスケーラブルなフレームワークを提案する。
我々は,課題映像の監督を行なわずに,キャプション誘導世代から指示条件付きタスク解決へ実行知識を伝達する。
実験の結果,エグゼクタはVLMに基づく評価プロトコルでデモレータを超越し,ロボットタスクに競争力を持たせることがわかった。
- 参考スコア(独自算出の注目度): 23.602187351200183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pretrained video generators are promising visual world models that exhibit emergent task-solving abilities; however, their reliance on detailed textual descriptions limits their direct use for planning and decision-making. Existing approaches either outsource this reasoning to language or vision-language models, or rely on supervised fine-tuning with paired task-execution videos, which are costly to collect and difficult to scale. We propose a scalable framework that elicits task-solving ability in such models by combining self-distillation with reinforcement learning. Given an unlabeled scene image, a vision-language model generates a candidate task and a detailed step-by-step solution. The solution conditions a pretrained video diffusion model, the Demonstrator; we distill its behavior into an Executor conditioned only on the image and a short task prompt. This transfers execution knowledge from caption-guided generation to instruction-conditioned task solving without curated task-video supervision. We further improve the Executor with reinforcement learning from VLM feedback, exploiting the asymmetry between judging whether a sampled video satisfies a task and generating the solution. Experiments on our proposed WorldTasks-Benchmark and the DreamGen robotics benchmark show that the Executor surpasses the Demonstrator under our VLM-based evaluation protocol and transfers competitively to robotic tasks.
- Abstract(参考訳): 事前訓練されたビデオジェネレータは、創発的なタスク解決能力を示す視覚世界モデルを約束するが、詳細なテキスト記述に依存しているため、計画や意思決定に直接使用することは制限される。
既存のアプローチは、この推論を言語やビジョン言語モデルにアウトソースするか、あるいはペア化されたタスク実行ビデオによる教師付き微調整に依存している。
本稿では、自己蒸留と強化学習を組み合わせることで、そのようなモデルにおけるタスク解決能力を実現するスケーラブルなフレームワークを提案する。
ラベルのないシーン画像が与えられた場合、視覚言語モデルが候補タスクと詳細なステップバイステップソリューションを生成する。
提案手法は,事前訓練したビデオ拡散モデルであるデモストレータを条件付けし,その動作を画像にのみ条件付き実行器に蒸留し,短いタスクプロンプトで処理する。
これにより、指示条件付きタスク解決にキャプション誘導世代から実行知識を変換する。
さらに,VLMフィードバックからの強化学習によるエクゼクタの改良を行い,サンプルビデオがタスクを満足するかどうかの判断と解の生成の非対称性を利用した。
提案したWorldTasks-BenchmarkとDreamGenのロボティクスベンチマークの実験では、ExecutorがVLMベースの評価プロトコルの下でDemonstratorを上回り、ロボットタスクに競争的に移行することを示した。
関連論文リスト
- SparTa: Sparse Graphical Task Models from a Handful of Demonstrations [18.00619071013106]
我々は、ロボットがタスクで達成すべきことを、どのように行うべきかではなく、推測することに集中する。
本稿では、一連の操作グラフを抽出し、オブジェクト状態上の分布を推定するデモセグメンテーションとプーリング手法を提案する。
シミュレーションと実ロボットの両方に適合したモデルをデプロイし、結果のタスク表現が環境全体にわたって信頼性の高い実行をサポートすることを示す。
論文 参考訳(メタデータ) (2026-02-18T21:54:35Z) - Exploring Conditions for Diffusion models in Robotic Control [70.27711404291573]
我々は,ロボット制御のためのタスク適応型視覚表現を得るために,事前学習したテキスト・画像拡散モデルを活用することを検討する。
テキスト条件をナビゲート的に適用すると、制御タスクにおいて最小あるいは負の利得が得られることがわかった。
本稿では,制御環境に適応する学習可能なタスクプロンプトと,細粒度でフレーム固有の細部をキャプチャする視覚プロンプトを提案する。
論文 参考訳(メタデータ) (2025-10-17T10:24:14Z) - UniVid: Unifying Vision Tasks with Pre-trained Video Generation Models [12.21686773633269]
広範なコーパスで訓練された大規模言語モデルは、単一の生成フレームワーク内で多様な言語タスクを統一することに成功した。
このようなモデリングには、モダリティやソースをまたいだタスク固有の事前トレーニングが必要です。
タスク固有の変更なしに様々な視覚タスクを処理するために,ビデオ拡散変換器を微調整するフレームワークであるUniVidを提案する。
論文 参考訳(メタデータ) (2025-09-26T01:43:40Z) - Latent Action Pretraining Through World Modeling [1.988007188564225]
自己教師型手法で模倣学習モデルを事前学習するためのモデルに依存しないフレームワークであるLAWMを提案する。
当社のフレームワークは,タスクや環境,実施環境の移動に有効であるように設計されています。
論文 参考訳(メタデータ) (2025-09-22T21:19:10Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learning and Verification of Task Structure in Instructional Videos [85.511888642497]
本稿では,教師ビデオのセマンティクスと構造を表現することに焦点を当てた,事前学習型ビデオモデルVideoTaskformerを紹介する。
ステップ表現をローカルに学習する以前の作業と比較して,私たちのアプローチは,それらをグローバルに学習するものです。
命令ビデオにおける誤り検出のための2つの新しいベンチマークを導入し,異常なステップが存在するか,ステップが正しい順序で実行されるかを確認する。
論文 参考訳(メタデータ) (2023-03-23T17:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。