論文の概要: AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition
- arxiv url: http://arxiv.org/abs/2606.14674v1
- Date: Fri, 12 Jun 2026 17:39:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.018073
- Title: AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition
- Title(参考訳): AgentSpec: コントロールされた構成を通して、身体的エージェントスカッフルドを理解する
- Authors: Jixuan Chen, Jianzhi Shen, Haoqiang Kang, Zhi Hong, Qingyi Jiang, Soham Bose, Yiming Zhang, Leon Leng, Amit Vyas, Lingjun Mao, Siru Ouyang, Kun Zhou, Lianhui Qin,
- Abstract要約: 我々は、再利用可能なポリシーコンポーネントの型付け構成としてエンボディされたエージェントを表現するモジュール仕様フレームワークであるAgentSpecを紹介した。
DeliveryBench、ALFRED、MiniGrid、RoboTHORでこのフレームワークをインスタンス化し、推論、メモリ、リフレクション、強化学習モジュールを分析します。
この結果から, エージェント性能は, 分離モジュール強度よりも, 足場との互換性と相互作用効果によって制御されていることがわかった。
- 参考スコア(独自算出の注目度): 23.160500379113703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly built not as single model calls, but as scaffolded systems that combine reasoning, memory, reflection, action execution, and learning. While such scaffolds often improve performance, they are often embedded in tightly coupled pipelines, making it difficult to isolate component contributions, compare alternative designs, or understand how module interactions shape agent behavior. We introduce AgentSpec, a modular specification framework that represents embodied agents as typed compositions of reusable policy components with standardized interfaces. AgentSpec standardizes the interfaces among perception, memory, reasoning, reflection, action, and optional learning, enabling components to be swapped and recombined under controlled conditions. We instantiate this framework across DeliveryBench, ALFRED, MiniGrid, and RoboTHOR, and analyze reasoning, memory, reflection, and reinforcement-learning modules across model backbones. Our results show that agent performance is governed by scaffold compatibility and interaction effects rather than isolated module strength. In particular, structured multi-granularity memory improves long-horizon state tracking, reasoning and memory interact non-uniformly across environments, reflection trades off correction and cost, and RL-trained policies compose best when optimized with deployment-time scaffold structure. AgentSpec provides a controlled foundation for studying, comparing, and designing composable LLM agents. Our code, baselines and interactive playground are publicly available at https://agentspec-embodied.github.io.
- Abstract(参考訳): LLMエージェントは、単一のモデルコールではなく、推論、メモリ、リフレクション、アクション実行、学習を組み合わせた足場システムとしてますます構築されている。
このような足場は、しばしばパフォーマンスを改善するが、しばしば密結合されたパイプラインに埋め込まれ、コンポーネントのコントリビューションを分離したり、代替設計を比較したり、モジュール間の相互作用がエージェントの振る舞いをどう形作るかを理解するのが難しくなる。
我々は,実装されたエージェントを標準化されたインターフェースで再利用可能なポリシコンポーネントの型付け構成として表現するモジュール仕様フレームワークであるAgenSpecを紹介した。
AgentSpecは、認識、メモリ、推論、リフレクション、アクション、任意の学習のインターフェイスを標準化し、制御された条件下でコンポーネントを交換、再結合できるようにする。
DeliveryBench、ALFRED、MiniGrid、RoboTHORにまたがるこのフレームワークをインスタンス化し、モデルバックボーン間の推論、メモリ、リフレクション、強化学習モジュールを分析します。
この結果から, エージェント性能は, 分離モジュール強度よりも, 足場との互換性と相互作用効果によって制御されていることがわかった。
特に、構造化された多粒度メモリは、長期状態追跡を改善し、推論とメモリは環境間で不均一に相互作用し、リフレクションは修正とコストをオフにし、RLで訓練されたポリシーは、デプロイ時の足場構造に最適化した場合に最適である。
AgentSpecは、構成可能なLLMエージェントの研究、比較、設計のための制御された基盤を提供する。
私たちのコード、ベースライン、インタラクティブな遊び場はhttps://agentspec-embodied.github.io.comで公開されています。
関連論文リスト
- AgentSelect: Benchmark for Narrative Query-to-Agent Recommendation [39.61543921719145]
AgentSelectは、エージェントの選択をナラティブクエリからエージェントへのレコメンデーションとして再設計するベンチマークである。
異種評価アーティファクトを、統一された正のみの相互作用データに変換する。
AgentSelectは、エージェントレコメンデーションのための最初の統一データと評価インフラストラクチャを提供する。
論文 参考訳(メタデータ) (2026-03-04T06:17:51Z) - Theory of Code Space: Do Code Agents Understand Software Architecture? [0.0]
コードエージェントは、分離されたタスクで優れているが、アーキテクチャの理解を必要とするマルチファイルソフトウェアエンジニアリングと苦労する。
エージェントがAI探索中に一貫性のあるアーキテクチャの信念を構築し、維持し、更新できるかどうかを評価するベンチマークである、コード空間の理論(ToCS)を紹介する。
論文 参考訳(メタデータ) (2026-02-28T11:40:17Z) - Monadic Context Engineering [59.95390010097654]
本稿では,エージェント設計の正式な基盤を提供するために,モナディックコンテキストエンジニアリング(MCE)を紹介する。
我々は、モナドがロバストなコンポジションをどのように実現し、Applicativesが並列実行に原則化された構造を提供し、また、モナドトランスフォーマーがこれらの機能の体系的なコンポジションをどのように可能にしているかを実証する。
この階層化されたアプローチにより、開発者は、単純で独立した検証可能なコンポーネントから、複雑でレジリエントで効率的なAIエージェントを構築することができる。
論文 参考訳(メタデータ) (2025-12-27T01:52:06Z) - Agent WARPP: Workflow Adherence via Runtime Parallel Personalization [0.0]
大規模言語モデル(LLM)はタスク指向対話(TOD)システムにますます適用されてきている。
並列パーソナライゼーション(WARPP)は、マルチエージェントランタイムとオーケストレーションを組み合わせた、トレーニング不要でモジュール化されたフレームワークである。
ユーザ属性に基づいて条件分岐を動的にプルーニングすることで、このフレームワークは推論のオーバーヘッドを減らし、実行時のツール選択を狭める。
論文 参考訳(メタデータ) (2025-07-23T23:27:49Z) - Improving Retrieval-Augmented Generation through Multi-Agent Reinforcement Learning [88.55095746156428]
Retrieval-augmented Generation (RAG) は、外部知識を大規模言語モデルに組み込むために広く利用されている。
標準的なRAGパイプラインは、クエリ書き換え、文書検索、文書フィルタリング、回答生成など、いくつかのコンポーネントで構成されている。
本稿では,複数コンポーネントからなる複雑なRAGパイプラインを多エージェント協調作業として扱うことを提案する。
論文 参考訳(メタデータ) (2025-01-25T14:24:50Z) - On Generative Agents in Recommendation [58.42840923200071]
Agent4Recは、Large Language Modelsに基づいたレコメンデーションのユーザーシミュレータである。
各エージェントは、ページ単位でパーソナライズされた推奨モデルと対話する。
論文 参考訳(メタデータ) (2023-10-16T06:41:16Z) - A Unified and Efficient Coordinating Framework for Autonomous DBMS
Tuning [34.85351481228439]
既存のMLベースのエージェントを効率的に活用するための統合コーディネートフレームワークを提案する。
機械学習ベースのエージェントを効果的に利用し、ワークロードの実行時間に1.414.1Xのスピードアップでより良い設定を実現できることを示す。
論文 参考訳(メタデータ) (2023-03-10T05:27:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。