論文の概要: VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents
- arxiv url: http://arxiv.org/abs/2606.19729v1
- Date: Thu, 18 Jun 2026 02:51:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.619192
- Title: VOiLA: Vectorized Online Planning with Learned Diffusion Model for POMDP Agents
- Title(参考訳): VOiLA:POMDPエージェントのための学習拡散モデルを用いたベクトルオンラインプランニング
- Authors: Marcus Hoerger, Rishikesh Joshi, Rahul Shome, Ian Manchester, Hanna Kurniawati,
- Abstract要約: 不確実性の下での計画は自律ロボットにとって不可欠な能力である。
本稿では,不確実性を考慮したオンラインプランニングのためのタスク非依存のPOMDPモデルを学習するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.270170611697141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning under uncertainty is an essential capability for autonomous robots. The Partially Observable Markov Decision Process (POMDP) provides a powerful framework for such a capability. Although POMDP-based planning has advanced significantly, its application to real-world problems is often limited by the difficulty of obtaining faithful POMDP models. We present Vectorized Online planning wIth Learned diffusion model for POMDP Agents (VOiLA), a framework that learns task-agnostic POMDP models for online planning under uncertainty. VOiLA learns transition and observation samplers using conditional diffusion models and learns observation-likelihood models for particle-based belief updates. To enable efficient online planning, the diffusion samplers are distilled into compact feedforward generators and integrated with Vectorized Online POMDP Planner (VOPP), an online POMDP planner designed to leverage GPU parallelization. Experimental results indicate the distillation strategy reduces sampling cost by up to nearly three orders of magnitude, making learned generative POMDP models practical for online planning. Evaluation of VOiLA on three benchmark problems indicate that VOiLA achieves equal or better performance than Recurrent Soft Actor Critic while using less than 10% training data, and generalizes much better to unseen environment configurations. Physical robot evaluation indicates VOiLA uses the models learned using only simulated data and generates a policy that successfully accomplish the task in 10 of 10 runs.
- Abstract(参考訳): 不確実性の下での計画は自律ロボットにとって不可欠な能力である。
部分観測可能なマルコフ決定プロセス(POMDP)は、そのような機能のための強力なフレームワークを提供する。
POMDPベースのプランニングは大幅に進歩しているが、実世界の問題への適用は、忠実なPOMDPモデルを得るのが困難であるために制限されることが多い。
我々は、不確実なオンライン計画のためのタスク非依存のPOMDPモデルを学習するフレームワークであるPOMDP Agents (VOiLA)について、Vectorized Online Planning wIth Learned diffusion modelを提示する。
VOiLAは、条件付き拡散モデルを用いて遷移および観測サンプルを学習し、粒子ベースの信念更新のための観測類似モデルを学ぶ。
効率的なオンライン計画を可能にするため、拡散サンプリングは小型のフィードフォワードジェネレータに蒸留され、GPU並列化を活用するように設計されたオンラインPOMDPプランナーであるVectorized Online POMDP Planner (VOPP)と統合される。
実験結果から, 蒸留法は, 採取コストを最大3桁程度削減し, オンラインプランニングに有効であることがわかった。
3つのベンチマーク問題に対するVOiLAの評価は、VOiLAが10%未満のトレーニングデータを使用しながら、リカレント・ソフト・アクター・クリティカル(英語版)よりも同等かそれ以上の性能を達成し、未知の環境構成よりもはるかに優れていることを示している。
物理ロボット評価は、VOiLAがシミュレーションデータのみを用いて学習したモデルを使用して、10回中10回でタスクを成功させるポリシーを生成することを示している。
関連論文リスト
- Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Simplifying Complex Observation Models in Continuous POMDP Planning with Probabilistic Guarantees and Practice [8.403582577557918]
我々は,簡易観測モデルを計画に用いた場合,どのような意味があるのかという問題に対処する。
我々の主な貢献は、単純化されたモデルの統計的全変動距離に基づく新しい確率的境界である。
計算はオフラインとオンラインに分かれることが可能で、計画中にコストのかかるモデルにアクセスすることなく、正式な保証に到達します。
論文 参考訳(メタデータ) (2023-11-13T20:55:02Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。