論文の概要: Causal Reward World Models: Zero-shot Reward Design for Automated Skill Generation
- arxiv url: http://arxiv.org/abs/2606.23280v1
- Date: Mon, 22 Jun 2026 12:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:54:05.457574
- Title: Causal Reward World Models: Zero-shot Reward Design for Automated Skill Generation
- Title(参考訳): 因果リワード世界モデル:自動スキル生成のためのゼロショットリワード設計
- Authors: Yang Yang, Yuchuang Tong, Zhengtao Zhang, Xu Ding, Ning Yang, Yifan Zhang, Haipeng Li, Kehu Yang, Miao Xin,
- Abstract要約: Automated Reward Design (ARD)は、強化学習における手動報酬工学を言語駆動報酬関数合成に置き換えることを目的としている。
大規模言語モデル(LLM)に基づく既存のアプローチは、特定のタスクごとに報酬仮説を洗練させるために反復的な環境フィードバックに依存し、本質的に相関駆動である。
マルチタスクインタラクションデータに基づくオフライン事前学習により,候補の報酬成分とタスク対象の物理変数の因果関係を明示的にモデル化する因果関係世界モデル(CRWM)を提案する。
- 参考スコア(独自算出の注目度): 23.371552518874807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Reward Design (ARD) aims to replace manual reward engineering in reinforcement learning with language-driven reward function synthesis. However, existing approaches based on large language models (LLMs) remain inherently correlation-driven, relying on iterative environmental feedback to refine reward hypotheses for each specific task. This paradigm not only results in inefficient reasoning but also makes LLMs susceptible to semantically plausible yet causally spurious reward components, leading to ineffective optimization. To address these limitations, we propose the Causal Reward World Model (CRWM), which explicitly models the causal topological relationships between candidate reward components and task-targeted physical variables through offline pre-training on multi-task interaction data. Based on a coarse-to-fine pre-training strategy, we introduce a joint optimization module that integrates Explicit Mechanism Decoupling with Confidence-Aware Soft Fusion to refine coarse structural priors using micro-level trajectories, thereby constructing a robust and interpretable causal skeleton. During inference, LLMs leverage CRWM as a task-irrelevant causal prior to constrain the reward generation, enabling zero-shot reward function design. Our work opens up a new white-box paradigm for the ARD problem. Extensive experiments on complex continuous control benchmarks demonstrate that CRWM generates executable reward functions without feedback-driven reward refinement, significantly reducing the design latency for acquiring new robotic skills while matching or surpassing state-of-the-art performance, and further exhibits strong generalization capabilities across unseen tasks and diverse robotic embodiments.
- Abstract(参考訳): Automated Reward Design (ARD)は、強化学習における手動報酬工学を言語駆動報酬関数合成に置き換えることを目的としている。
しかし、大規模言語モデル(LLM)に基づく既存のアプローチは、特定のタスクごとに報酬仮説を洗練させるために反復的な環境フィードバックに依存し、本質的に相関駆動である。
このパラダイムは、非効率な推論をもたらすだけでなく、意味論的に証明できるが因果的に刺激的な報酬成分に影響を受けやすくし、非効率な最適化に繋がる。
これらの制約に対処するために,マルチタスクインタラクションデータを用いたオフライン事前学習により,候補報酬成分とタスク対象物理変数の因果的トポロジ的関係を明示的にモデル化する因果リワード世界モデル(CRWM)を提案する。
粗大から細大までの事前学習戦略に基づき,信頼度を意識したソフトフュージョンと疎結合した共同最適化モジュールを導入し,マイクロレベル軌道を用いた粗大な構造先行を洗練し,頑健で解釈可能な因果骨格を構築する。
推論中、LLMは報酬生成を制約する前にCRWMをタスク非関連因果として利用し、ゼロショット報酬関数の設計を可能にする。
我々の研究は、ARD問題に対する新しいホワイトボックスパラダイムを開きます。
複雑な連続制御ベンチマークに関する大規模な実験は、CRWMがフィードバック駆動による報酬改善を伴わずに実行可能な報酬関数を生成することを示し、最先端のパフォーマンスに適合または超越しながら、新しいロボットスキルを得るための設計遅延を著しく低減し、また、目に見えないタスクや多様なロボットの実施形態にわたって強力な一般化能力を示す。
関連論文リスト
- EUPHORIA: Efficient Universal Planning via Hybrid Optimization for Robust Industrial Robotic Assembly [12.727917085274841]
EUPHORIAは統一されたフレームワークであり、普遍的な少数ショット適応性と動的効率を実現する。
構造的推論のために,ソフトアクタ・クリティカルを用いて訓練した物理インフォームドグラフ変換器を導入する。
実験により、EUPHORIAは分離されたベースライン上でのエネルギー消費を著しく減少させることが示された。
論文 参考訳(メタデータ) (2026-05-15T18:25:49Z) - ReVEL: Multi-Turn Reflective LLM-Guided Heuristic Evolution via Structured Performance Feedback [0.0]
ReVEL: 構造化性能フィードバックによるマルチTurn反射型LLM-Huristic Evolutionを提案する。
ReVELの中核は、(i)パフォーマンスに目立ったグループ化と(ii)マルチターンフィードバック駆動リフレクションの2つのメカニズムにある。
本結果は,自動設計の原則的パラダイムとして,構造化グループを用いたマルチターン推論に注目した。
論文 参考訳(メタデータ) (2026-03-05T04:52:11Z) - Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - The End of Reward Engineering: How LLMs Are Redefining Multi-Agent Coordination [0.9099663022952496]
大規模言語モデルの最近の進歩は、手作りの数値報酬から言語に基づく客観的仕様へのシフトをめざしていると論じる。
我々は,この遷移を,意味的報酬仕様,動的報酬適応,人間の意図との整合性の改善という3つの側面に沿って概念化する。
論文 参考訳(メタデータ) (2026-01-13T05:47:18Z) - Uncertainty-aware Reward Design Process [6.013578016233855]
報奨関数の設計と評価を効率化するために,大規模言語モデルを統合する新しいフレームワークであるUncertainty-aware Reward Design Process (URDP)を提案する。
URDPは自己整合性分析に基づいて不確実性を定量化し,非効率な報酬成分のシミュレーション無し同定を可能にする。
3つのベンチマーク環境にまたがる35のタスクにわたるURDPの総合評価を行う。
論文 参考訳(メタデータ) (2025-07-03T03:09:17Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。