論文の概要: Bridging the Agent-World Gap: Text World Models for LLM-based Agents
- arxiv url: http://arxiv.org/abs/2606.09032v1
- Date: Mon, 08 Jun 2026 04:58:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.704419
- Title: Bridging the Agent-World Gap: Text World Models for LLM-based Agents
- Title(参考訳): エージェントワールドギャップのブリッジ: LLMエージェントのためのテキストワールドモデル
- Authors: Yixia Li, Hongru Wang, Peng Lai, Zhiwen Ruan, He Zhu, Youxin Zhu, Ganlong Zhao, Minda Hu, Yun Chen, Sibei Yang, Peng Li, Jeff Z. Pan, Jia Pan, Guanhua Chen, Yang Liu, Guanbin Li,
- Abstract要約: 大規模言語モデル(LLM)ベースのエージェントは、インタラクティブなテキスト環境においてますます使われている。
多くは反応が強く、これらの環境がどのように構成され、どのように進化するかの明確なモデルなしで、観察を行動にマッピングする。
テキストワールドモデル(TWMs): 状態と候補アクションが与えられたら、結果のWebページ、端末出力、API応答、ユーザ応答を予測する。
LLMをベースとしたエージェントのテキストワールドモデルについて,形式的なフレームワークとエージェントライフサイクルを中心に整理し,体系的にレビューを行った。
- 参考スコア(独自算出の注目度): 83.8237017249529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based agents are increasingly used in interactive textual environments, from web navigation and code editing to tool use and long-horizon dialogue. Yet many remain largely reactive, mapping observations to actions without an explicit model of how these environments are structured and evolve. This motivates text world models (TWMs): transition models over textual states that, given a state and a candidate action, predict the resulting webpage, terminal output, API response, or user reply, thereby supporting planning, efficient learning, and principled evaluation. We systematically review text world models for LLM-based agents, organized around a formal framework and the agent lifecycle: (1) Foundations, defining text world models and characterizing them by state representation and grounding domain; (2) Construction, taxonomizing LLM-as-WM and code-as-WM paradigms and reviewing methods for building them; (3) Application, examining how world models support agents at training time through experience synthesis and at inference time through planning, verification, and adaptation; and (4) Evaluation, covering both evaluation of the world model itself and its use as an evaluation environment for agents. We aim to consolidate this rapidly developing area, clarify its design space, and highlight open challenges for future research.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、Webナビゲーションやコード編集、ツールの使用、長距離対話など、インタラクティブなテキスト環境において、ますます利用されている。
しかし、多くは反応が強く、これらの環境がどのように構成され、どのように進化するかの明確なモデルなしで、観察を行動にマッピングする。
テキストワールドモデル(TWMs): 状態と候補アクションが与えられた状態の遷移モデルで、結果のWebページ、端末出力、API応答、ユーザ応答を予測し、計画、効率的な学習、原則化された評価をサポートする。
本研究では, LLMをベースとしたエージェントのテキストワールドモデルを形式的枠組みとエージェントライフサイクルに基づいて体系的にレビューする:(1) テキストワールドモデルを定義し, 状態表現と接地ドメインで特徴付ける基礎, (2) LLM-as-WMとコード・アズ・WMのパラダイムを構築・分類し, それらを構築するための方法,(3) 経験合成と計画, 検証, 適応による推論時間を通じて世界モデルがどのようにエージェントをサポートするか, (4) エージェントの評価環境としての世界モデル自体の評価と使用の両方を網羅する。
我々は、この急速に発展している領域を統合し、そのデザイン空間を明確にし、将来の研究におけるオープンな課題を強調することを目的としている。
関連論文リスト
- From Word to World: Can Large Language Models be Implicit Text-based World Models? [82.47317196099907]
エージェント強化学習は、経験駆動のスケーリングにますます依存している。
世界モデルは、シミュレートされた経験を通して学習効率を改善する潜在的方法を提供する。
大規模言語モデルがこの役割を確実に果たせるか,どのような条件でエージェントに有意義な利益をもたらすかを検討する。
論文 参考訳(メタデータ) (2025-12-21T17:28:42Z) - Affordance Representation and Recognition for Autonomous Agents [64.39018305018904]
本稿では,構造化データを用いた世界モデリングのためのパターン言語を提案する。
DOMトランスダクションパターンは、Webページの複雑さの課題に対処する。
Hypermedia Affordances Recognition Patternは、エージェントがその世界モデルを動的に強化することを可能にする。
論文 参考訳(メタデータ) (2025-10-28T14:27:28Z) - World Model Implanting for Test-time Adaptation of Embodied Agents [29.514831254621438]
具体的AIにおいて、永続的な課題は、エージェントが広範なデータ収集や再トレーニングを必要とせずに、新しいドメインへの堅牢な適応を可能にすることである。
本稿では、大規模言語モデルの推論能力と、独立に学習されたドメイン固有世界モデルを組み合わせた世界モデル埋め込みフレームワーク(WorMI)を提案する。
我々は、VirtualHomeとALFWorldのベンチマークでWorMIを評価し、いくつかのLSMベースのアプローチと比較して、ゼロショットと少数ショットのパフォーマンスが優れていることを示した。
論文 参考訳(メタデータ) (2025-09-04T07:32:16Z) - Text2World: Benchmarking Large Language Models for Symbolic World Model Generation [45.03755994315517]
ドメイン定義言語(PDDL)に基づいた新しいベンチマークであるText2Worldを導入する。
大規模強化学習で訓練された推論モデルは、他よりも優れていることがわかった。
これらの知見に基づいて,LLMの世界モデリング能力を高めるためのいくつかの有望な戦略について検討する。
論文 参考訳(メタデータ) (2025-02-18T17:59:48Z) - Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents [22.608219492706876]
本稿では,各候補行動の結果をシミュレートし,考慮した世界モデルを用いたWebエージェントのためのモデルベース計画フレームワークを提案する。
実証的な結果は、WebDreamerがリアクティブベースラインよりも大幅にパフォーマンスが向上していることを示している。
我々の訓練された世界モデルDreamer-7Bは、GPT-4oに匹敵する性能を発揮し、複雑なウェブ環境における効率的かつ効率的な計画のための特殊な世界モデルの可能性を強調した。
論文 参考訳(メタデータ) (2024-11-10T18:50:51Z) - LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - WorldGPT: Empowering LLM as Multimodal World Model [51.243464216500975]
MLLM(Multimodal Large Language Model)に基づく汎用世界モデルWorldGPTを紹介する。
WorldGPTは、さまざまなドメインにまたがる数百万のビデオを分析して、世界ダイナミクスの理解を得る。
マルチモーダル状態遷移予測ベンチマークWorldNetの評価を行う。
論文 参考訳(メタデータ) (2024-04-28T14:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。