論文の概要: Beyond Next-Observation Prediction: Agent-Authored World Modeling for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2606.25421v1
- Date: Wed, 24 Jun 2026 05:31:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.232499
- Title: Beyond Next-Observation Prediction: Agent-Authored World Modeling for Sequential Decision Making
- Title(参考訳): 次観測予測を超えて:シークエンシャル決定のためのエージェント認証世界モデリング
- Authors: Guangfeng Cai, Kaibing Yang, Shuo He, Yu Li, Shengtian Yang, Jiaqi Lv, Lei Feng,
- Abstract要約: 政策の意思決定ニーズから監督を構築するための訓練手順を提案する。
具体的には、各状態において、エージェントは行動する前に環境について何を理解する必要があるかを識別する。
これは、トレーニングの目的を次の観察の内容ではなく、行動する前にポリシーが必要とするダイナミックスと整合させる。
- 参考スコア(独自算出の注目度): 18.81793832623564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on world modeling for Large Language Model (LLM) agents typically formulate the learning objective as next-observation prediction. However, this objective ties supervision to what a transition happens to reveal, which may omit the dynamics most relevant to the agent's current decision. To bridge this gap, we propose Agent-Authored World Modeling (AAWM), a training procedure that constructs supervision from the policy's own decision needs. Specifically, at each state, the agent identifies what it needs to understand about the environment before acting. These needs drive the retrieval of relevant transition evidence across trajectories, which is then synthesized into training targets that capture decision-oriented dynamics instead of reconstructing the next observation. This aligns the training objective with the dynamics the policy needs before acting, not with the contents of the next observation. Experimental results validate the effectiveness of AAWM across multiple environments and training settings. These results show that decision-aware world-model targets provide a more effective learning signal than next-observation prediction.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントの世界のモデリングに関する最近の研究は、学習目標を次の観測予測として定式化するのが一般的である。
しかし、この目的は、エージェントの現在の決定に最も関係のあるダイナミクスを省略する可能性がある、遷移が起こることに対する監督と結びついている。
このギャップを埋めるため、我々は政策の意思決定ニーズから監督を構築するための訓練手順であるAWM(Agent-Authored World Modeling)を提案する。
具体的には、各状態において、エージェントは行動する前に環境について何を理解する必要があるかを識別する。
これらの要求は、関連するトランジションエビデンスを軌跡全体にわたって検索し、次の観察を再構築する代わりに、決定指向のダイナミクスを捉える訓練ターゲットに合成する。
これは、トレーニングの目的を次の観察の内容ではなく、行動する前にポリシーが必要とするダイナミックスと整合させる。
実験により、複数の環境およびトレーニング環境におけるAAWMの有効性が検証された。
これらの結果は,次の観測予測よりも,意思決定を意識した世界モデル目標がより効果的な学習信号を提供することを示している。
関連論文リスト
- HarmoWAM: Harmonizing Generalizable and Precise Manipulation via Adaptive World Action Models [58.191567345416836]
世界行動モデル(WAM)は、物理力学のモデリングによるロボット制御のための有望なパラダイムとして登場した。
HarmoWAMは、予測と反応の制御を統一するために世界モデルを完全に活用し、一般的なトランジットと正確な操作を可能にする。
実世界の6つのロボットタスクにまたがる3つのトレーニング未確認テスト環境を構築し、背景、位置、オブジェクトの意味のバリエーションをカバーした。
論文 参考訳(メタデータ) (2026-05-11T17:59:56Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - OMGPT: A Sequence Modeling Framework for Data-driven Operational Decision Making [5.419799294989289]
我々は、逐次意思決定タスクを解決するために、生成事前学習変換(GPT)モデルを構築した。
本稿ではまず,複数の作業上の意思決定タスクをカバーする汎用シーケンスモデリングフレームワークを提案する。
次に、シーケンシャルモデリングのための自然かつ強力なアーキテクチャとして、トランスフォーマーベースのニューラルネットワークモデル(OMGPT)をトレーニングする。
論文 参考訳(メタデータ) (2025-05-19T15:33:03Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - LatentFormer: Multi-Agent Transformer-Based Interaction Modeling and
Trajectory Prediction [12.84508682310717]
将来の車両軌道予測のためのトランスフォーマーモデルであるLatentFormerを提案する。
提案手法をnuScenesベンチマークデータセット上で評価し,提案手法が最先端性能を実現し,トラジェクトリ指標を最大40%向上することを示す。
論文 参考訳(メタデータ) (2022-03-03T17:44:58Z) - Feature-Based Interpretable Reinforcement Learning based on
State-Transition Models [3.883460584034766]
現実世界でのAIモデルの運用に関する懸念が高まり、AIモデルの決定を人間に説明することへの関心が高まっています。
強化学習におけるリスクに関する局所的な説明方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T23:43:11Z) - Instance-Aware Predictive Navigation in Multi-Agent Environments [93.15055834395304]
エージェント間の相互作用と将来のシーン構造を予測するIPC(Instance-Aware Predictive Control)アプローチを提案する。
我々は,ego中心の視点でエージェント間のインタラクションを推定するために,新しいマルチインスタンスイベント予測モジュールを採用する。
シーンレベルとインスタンスレベルの両方の予測状態をより有効活用するために、一連のアクションサンプリング戦略を設計します。
論文 参考訳(メタデータ) (2021-01-14T22:21:25Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。