論文の概要: The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective
- arxiv url: http://arxiv.org/abs/2606.07017v1
- Date: Fri, 05 Jun 2026 08:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.631588
- Title: The Sim-to-Real Gap of Foundation Model Agents: A Unified MDP Perspective
- Title(参考訳): ファウンデーションモデルエージェントのシン・トゥ・リアルギャップ--統一MDPの視点から
- Authors: Xiaoou Liu, Tiejin Chen, Weibo Li, Xiyang Hu, Hua Wei,
- Abstract要約: ファウンデーションモデルエージェントは、現実の意思決定のためにますますデプロイされているが、シミュレートと現実のギャップに悩まされている。
本稿では,基礎モデルエージェントの評価とトレーニングギャップを古典的なシミュレート・トゥ・リアル問題として定式化する。
- 参考スコア(独自算出の注目度): 8.617976533132635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation model agents are increasingly deployed for real-world decision-making, but suffer from the sim-to-real gap. While robotics and classical control have mature frameworks to address this gap, the foundation model community is treating agent robustness as an entirely novel phenomenon. Our paper proposes formalizing the foundation model agent evaluation and training gap as a classical sim-to-real problem structured entirely around the four elements of a Markov Decision Process, including Observation, Action, Transition, and Reward. In this paper, we set a comprehensive research agenda that translates classical discrepancies into the foundation model domain and advocates for adopting established solutions like domain randomization. We provide concrete examples, such as a multilingual tool calling to demonstrate how severe observation space gaps lead to operationally invalid actions despite correct semantic intent. Ultimately, this agenda aims to drive a paradigm shift, yielding a unified vocabulary and standardized stress test benchmarks to foster a new generation of highly trustworthy agents for reliable real-world applications.
- Abstract(参考訳): ファウンデーションモデルエージェントは、現実の意思決定のためにますますデプロイされているが、シミュレートと現実のギャップに悩まされている。
ロボット工学と古典的制御は、このギャップに対処するための成熟した枠組みを持っているが、基礎モデルコミュニティはエージェントの堅牢性を全く新しい現象として扱っている。
本稿では,マルコフ決定過程の4つの要素(観察,行動,遷移,後退を含む)を中心に構成された古典的シモ-リアル問題として,基礎モデルエージェントの評価と訓練ギャップの形式化を提案する。
本稿では,古典的不一致を基礎モデル領域に翻訳する包括的研究アジェンダを設定し,ドメインランダム化のような確立されたソリューションの採用を提唱する。
正確な意味的意図にもかかわらず、厳密な観測空間ギャップが操作的に無効な行動を引き起こすことを示すために、多言語ツール呼び出しのような具体例を提供する。
究極的には、この議題はパラダイムシフトを推進することを目的としており、信頼性の高い現実世界のアプリケーションに信頼性の高い新世代のエージェントを育成するために、統一された語彙と標準化されたストレステストベンチマークを提供する。
関連論文リスト
- MidSteer: Optimal Affine Framework for Steering Generative Models [53.89402578892719]
MidSteerは概念操作のためのより一般的なアフィンフレームワークで、仮定を緩和し、指向性の最小分散変換を可能にする。
私たちは、様々なタスク、モダリティ、アーキテクチャにおいて、MidSteerが好適に機能することを示します。
論文 参考訳(メタデータ) (2026-04-17T19:23:33Z) - The Causal Round Trip: Generating Authentic Counterfactuals by Eliminating Information Loss [4.166536642958902]
構造再構成誤差(SRE)を除去して因果音を発生させる最初の拡散型フレームワークであるBELM-MDCMを紹介する。
我々の研究は、古典的因果論の厳密さと近代的な生成モデルのパワーを調和させる。
論文 参考訳(メタデータ) (2025-11-07T13:37:23Z) - Step-Aware Policy Optimization for Reasoning in Diffusion Large Language Models [57.42778606399764]
拡散言語モデル(dLLM)は、テキスト生成に有望で非自己回帰的なパラダイムを提供する。
現在の強化学習アプローチは、しばしばスパースで結果に基づく報酬に頼っている。
これは推論の自然な構造との根本的なミスマッチに由来すると我々は主張する。
論文 参考訳(メタデータ) (2025-10-02T00:34:15Z) - Reimagining Agent-based Modeling with Large Language Model Agents via Shachi [16.625794969005966]
大規模言語モデル(LLM)によるマルチエージェントシステムにおける創発的行動の研究は重要な研究課題である。
エージェントのポリシーをコア認知コンポーネントに分解する形式的方法論とモジュラーフレームワークであるShachiを紹介する。
提案手法を総合的な10タスクベンチマークで検証し,新しい科学的探究を通じてその能力を実証する。
論文 参考訳(メタデータ) (2025-09-26T04:38:59Z) - The Landscape of Agentic Reinforcement Learning for LLMs: A Survey [103.32591749156416]
エージェント強化学習(Agentic RL)の出現は、大規模言語モデル(LLM RL)に適用された従来の強化学習からパラダイムシフトを示している。
本研究では, LLM-RLの縮退した単段階マルコフ決定過程(MDPs)と, エージェントRLを定義する部分可観測マルコフ決定過程(POMDPs)とを対比することにより, この概念シフトを定式化する。
論文 参考訳(メタデータ) (2025-09-02T17:46:26Z) - Deliberate Reasoning in Language Models as Structure-Aware Planning with an Accurate World Model [14.480267340831542]
高精度世界モデル(SWAP)による構造認識計画
SWAPは構造化知識表現と学習計画を統合する。
SWAPは,数理推論,論理推論,コーディングタスクなど,多種多様な推論集約型ベンチマークで評価される。
論文 参考訳(メタデータ) (2024-10-04T04:23:36Z) - Position: Foundation Agents as the Paradigm Shift for Decision Making [24.555816843983003]
我々は,エージェントの学習パラダイムの変革的変化として,基礎エージェントの構築を提唱する。
我々は,大規模な対話型データ収集や生成から自己指導型事前学習,適応に至るまで,基礎エージェントのロードマップを定めている。
論文 参考訳(メタデータ) (2024-05-27T09:54:50Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。