Fugu-MT 論文翻訳(概要): STRIPS-WM: Learning Grounded Propositional STRIPS-style World Models from Images

論文の概要: STRIPS-WM: Learning Grounded Propositional STRIPS-style World Models from Images

arxiv url: http://arxiv.org/abs/2606.06832v1
Date: Fri, 05 Jun 2026 02:16:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.517949
Title: STRIPS-WM: Learning Grounded Propositional STRIPS-style World Models from Images
Title（参考訳）: STRIPS-WM:画像から基底的命題型世界モデルを学ぶ
Authors: Abhiroop Ajith, Constantinos Chamzas,
Abstract要約: STRIPS-WMはSTRIPSスタイルの世界モデルを視覚遷移から直接学習するためのフレームワークである。潜在二項述語と1つの基本命題演算子をアクションラベルごとに学習する。これは、スパースプレコンディションと追加/削除効果を持つシンボリックアクションモデルを形成する。
参考スコア（独自算出の注目度）: 1.3535770763481905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Robots performing long-horizon visual manipulation observe high-dimensional images, but successful plans depend on action-relevant facts: what can be done now and what changes afterward. A useful planning representation should discard irrelevant visual details while preserving action applicability and effects. Classical task planners exploit this structure through symbolic operators with preconditions and effects, but obtaining such representations from raw visual experience remains challenging. We study a visual task-planning setting in which a robot receives only image transitions: the current image, executed high-level action, and the resulting image. At test time, given a start image and a goal image, the robot must produce a sequence of high-level actions that reaches the goal. To address this problem, we introduce STRIPS-WM, a framework for learning image-grounded STRIPS-style world models directly from visual transitions. STRIPS-WM first induces a finite abstract transition graph from images, then learns latent binary predicates and one grounded propositional operator per action label. The learned operators form a symbolic action model with sparse preconditions and add/delete effects. Finally, the learned predicates are distilled into a visual encoder, enabling classical planning directly from novel start and goal images. Experiments on visual rearrangement tasks show that STRIPS-WM improves image-to-plan success over the tested visual rollout, latent graph-search and latent-symbolic baselines.
Abstract（参考訳）: 長時間の視覚操作を行うロボットは、高次元画像を観察するが、成功した計画はアクション関連事実(現在何ができるか、その後何が変わるのか)に依存する。有用な計画表現は、アクションの適用性と効果を保ちながら、無関係な視覚的詳細を捨てるべきである。古典的なタスクプランナーは、事前条件と効果を持つ記号演算子を通してこの構造を利用するが、生の視覚経験からそのような表現を得るのは難しい。本研究では,ロボットが画像遷移のみを受信する視覚的タスク計画設定について検討する。テスト時には、開始画像と目標画像が与えられた場合、ロボットは目標に達するための一連のハイレベルなアクションを生成する必要がある。この問題に対処するために,画像グラウンドのSTRIPSスタイルの世界モデルを直接視覚遷移から学習するフレームワークSTRIPS-WMを紹介する。 STRIPS-WMは、まず画像から有限抽象的な遷移グラフを導き、次に潜在二進述語と作用ラベルごとに1つの基底命題演算子を学ぶ。学習した演算子は、スパースプレコンディションと加算/削除効果を持つシンボリックアクションモデルを形成する。最後に、学習した述語をビジュアルエンコーダに蒸留し、新しいスタート画像とゴール画像から直接古典的なプランニングを可能にする。視覚再構成タスクの実験では、STRIPS-WMはテストされた視覚ロールアウト、潜時グラフ検索、潜時シンボルベースラインよりも、画像から計画への成功を改善する。

関連論文リスト

SWEET: Sparse World Modeling with Image Editing for Embodied Task Execution [61.612676324369595]
画像編集モデルがロボット操作のための疎視世界モデルとして機能するかどうかを考察する。本稿では,一括予測型視覚計画フレームワークSWEETを提案する。 DROIDとRoboMimicの実験では、SWEETは見知らぬシーンの予測を改善している。
論文参考訳（メタデータ） (2026-05-19T03:54:46Z)
A Saccade-inspired Approach to Image Classification using Vision Transformer Attention Maps [0.9332987715848716]
人間の視覚システムからインスピレーションを得て、よりスマートな画像処理モデルを作成します。自己教師型視覚変換器であるDINOを用いて,視覚空間の重要領域に情報処理を集中させるササードインスピレーション方式を提案する。この選択的処理戦略は、フルイメージの分類性能の大部分を保ち、場合によっては性能も向上する。
論文参考訳（メタデータ） (2026-03-10T12:54:55Z)
SAGE: Scene Graph-Aware Guidance and Execution for Long-Horizon Manipulation Tasks [3.688836621357062]
ロングホライゾン操作タスクは、拡張されたアクションシーケンスと複雑なオブジェクトの相互作用を含む。長軸操作タスクにおけるSAGE(Scene Graph-Aware Guidance and Execution)の新たなフレームワークを提案する。 SAGE は,(1) VLM と LLM を用いて環境解析を行うシーングラフベースのタスクプランナと,(2) 対象のサブゴールグラフを対応する画像に変換する分離構造画像編集パイプラインから構成される。
論文参考訳（メタデータ） (2025-09-26T06:14:55Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
Visual Planning: Let's Think Only with Images [46.501897093584965]
我々は、特に空間的情報や幾何学的情報を含むタスクにおいて、言語が推論において最も自然で効果的なモダリティであるとは限らないと論じる。そこで我々は,これらの「ビジョンファースト」タスクを純粋に視覚的に表現して計画できる新しいパラダイム「ビジュアルプランニング」を提案する。このパラダイムでは、計画は視覚領域におけるステップバイステップの推論を符号化する一連の画像を通して実行される。
論文参考訳（メタデータ） (2025-05-16T16:17:22Z)
Learning Concept-Based Causal Transition and Symbolic Reasoning for Visual Planning [36.131648635051334]
ビジュアルプランニングは、人間が望ましい目標を達成するために意思決定する方法をシミュレートする。本稿では,解釈可能で汎用的な視覚計画フレームワークを提案する。我々のフレームワークは、未確認のタスクトラジェクトリ、未確認のオブジェクトカテゴリ、実世界のデータに一般化できることを示します。
論文参考訳（メタデータ） (2023-10-05T05:41:21Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文参考訳（メタデータ） (2021-12-16T03:16:30Z)
Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文参考訳（メタデータ） (2020-02-27T18:54:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。