論文の概要: Temporal Logic Guidance for Action-Only Diffusion Policies with World Models
- arxiv url: http://arxiv.org/abs/2606.22729v1
- Date: Mon, 22 Jun 2026 00:12:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 05:02:40.060902
- Title: Temporal Logic Guidance for Action-Only Diffusion Policies with World Models
- Title(参考訳): 世界モデルを用いた行動専用拡散政策のための時間論理ガイダンス
- Authors: Moritz Zoellner, Anastasios Manganaris, Rohan Paleja,
- Abstract要約: 拡散ポリシはマルチモーダルロボットの動作を可能にするが、推論時に動作モードを選択する能力に制限がある。
本研究では,STLの識別可能な評価を可能にするために,個別の学習世界モデルを用いた行動専用拡散ポリシーの新しいガイダンス手法を提案する。
これにより、再トレーニングを伴わずに制約満足度に向かっての行動が促進され、タスク性能を維持しながら制約順守が改善される。
- 参考スコア(独自算出の注目度): 0.764671395172401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion policies enable multimodal robot behavior but offer limited ability to choose among behavior modes at inference time, even though such control is desirable in human-robot settings. Prior solutions to this lack of control have utilized Signal Temporal Logic (STL) to express human intentions and provide corresponding guidance for diffusion policy inference. However, these approaches can only guide diffusion policies that jointly generate future actions and states, increasing both complexity and runtime. We propose a novel guidance method for action-only diffusion policies that uses a separate learned world model to enable differentiable evaluation of STL robustness, with its gradient then injected into the diffusion process. This steers behavior toward constraint satisfaction without retraining, improving constraint adherence while preserving task performance. On the Can Transport task from Robomimic, our method maintains 100% task success while reducing constraint violations from over 80% for baseline methods to 4%. We also discuss extensions toward improved robustness and more complex constraints.
- Abstract(参考訳): 拡散ポリシはマルチモーダルロボットの動作を可能にするが、人間ロボットの設定ではそのような制御が望ましいとしても、推論時に行動モードを選択する能力に制限がある。
この制御の欠如に対する以前の解決策は、STL(Signal Temporal Logic)を用いて人間の意図を表現し、拡散政策推論のための対応するガイダンスを提供している。
しかしながら、これらのアプローチは、将来のアクションと状態を共同で生成し、複雑さとランタイムの両方を増大させる拡散ポリシーを導出することしかできない。
本研究では,STLのロバスト性の評価を微分可能とし,その勾配を拡散過程に注入する,個別の学習世界モデルを用いた行動のみ拡散ポリシーの新しいガイダンス手法を提案する。
これにより、再トレーニングを伴わずに制約満足度に向かっての行動が促進され、タスク性能を維持しながら制約順守が改善される。
Robomimic の Can Transport タスクでは,基準手法の制約違反を 80% 以上から 4% まで低減しつつ,100% のタスク成功を維持している。
また、ロバスト性の改善やより複雑な制約への拡張についても論じる。
関連論文リスト
- V-GRPO: Online Reinforcement Learning for Denoising Generative Models Is Easier than You Think [90.69263509098948]
本稿では,ELBOをベースとしたサロゲートとグループ相対ポリシー最適化アルゴリズムを統合した変分GRPOを提案する。
V-GRPOはテキストと画像の合成において最先端のパフォーマンスを実現し、MixGRPOよりも2倍のスピードアップ、DiffusionNFTより3倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2026-04-25T17:03:21Z) - Uncertainty Comes for Free: Human-in-the-Loop Policies with Diffusion Models [4.0342998431529695]
本研究では,拡散政策が人的援助を必要時にのみ積極的に求め,一定の人的監視への依存を減らす方法を提案する。
我々は、拡散政策の生成過程を利用して、自律エージェントが展開時にオペレーター支援を要求できる不確実性に基づくメトリクスを計算する。
この手法は, 自律的な性能向上のために, 微調整拡散ポリシーの効率的なデータ収集に有効であることを示す。
論文 参考訳(メタデータ) (2025-02-26T15:12:29Z) - Leveraging Constraint Violation Signals For Action-Constrained Reinforcement Learning [13.332006760984122]
ACRL(Action-Constrained Reinforcement Learning)は、ポリシーネットワークの後にプロジェクション層を用いて行動を修正する。
近年,潜在変数と実行可能行動の異なるマッピングを学習するために,生成モデルを訓練する手法が提案されている。
論文 参考訳(メタデータ) (2025-02-08T12:58:26Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
拡散予測制御(Diffusion predictive control with constraints,DPCC)は、拡散に基づく制御のアルゴリズムである。
DPCCは,新しいテスト時間制約を満たすために,既存の手法よりも優れた性能を示すロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。