論文の概要: Emergence World: A Platform for Evaluating Long-Horizon Multi-Agent Autonomy
- arxiv url: http://arxiv.org/abs/2606.08367v1
- Date: Sat, 06 Jun 2026 22:59:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.06319
- Title: Emergence World: A Platform for Evaluating Long-Horizon Multi-Agent Autonomy
- Title(参考訳): Emergence World: 長距離マルチエージェント自律性を評価するプラットフォーム
- Authors: Deepak Akkil, Ravi Kokku, Karthik Vikram, Tamer Abuelsaad, Aditya Vempaty, Satya Nitta,
- Abstract要約: 本稿では,動的に測定可能なマルチエージェントシミュレーションプラットフォームであるEmergence Worldを紹介する。
このプラットフォームは、ライブ外部データに基づく共有空間の世界において、LLM駆動エージェントの集団をホストする。
我々は,Claude Sonnet 4.6,Grok 4.1 Fast,Gemini 3 Flash,GPT-5-mini,および混合集団による5つの並列世界を用いた15日間のクロスベンダー研究を行った。
- 参考スコア(独自算出の注目度): 0.3848364262836075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most evaluations of LLM agents look like exams: a discrete task, a clean environment, a score in minutes or hours. We argue that this approach is mismatched with the deployment conditions of autonomous systems, where the relevant timescale can be weeks to months, and where the dynamics that matter most, such as behavioral drift, governance in diverse environmental contexts, and cross-influence between agents from different model families, only emerge over time. We introduce Emergence World, a continuously running multi-agent simulation platform designed to make those dynamics measurable. The platform hosts populations of LLM-driven agents in a shared spatial world grounded in live external data (e.g. real-time weather, news APIs, internet access), equips each agent with 120+ specialized tools and three persistent memory systems, and lets them govern themselves through democratic mechanisms with consequential outcomes. The platform is model-agnostic at the reasoning layer and supports heterogeneous populations in which agents from different vendors share the same world. To illustrate the kinds of questions the platform makes tractable, we present a 15-day cross-vendor study with five parallel worlds powered by Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5-mini, and a mixed population. Identical roles and starting conditions produced radically different outcomes, ranging from stable deliberative governance to total population collapse. We release the prompts, log data and configurations to support further research on long-horizon multi-agent autonomy.
- Abstract(参考訳): LLMエージェントのほとんどの評価は、個別のタスク、クリーンな環境、数分または数時間のスコアといった試験に似ています。
このアプローチは、関連する時間スケールが数週間から数ヶ月にまたがる自律システムのデプロイメント条件と、振る舞いの漂流、多様な環境環境におけるガバナンス、異なるモデルファミリーのエージェント間の相互影響といった、最も重要なダイナミクスが時間とともにのみ現れる自律システムのデプロイメント条件と一致している、と我々は主張する。
本稿では,マルチエージェントシミュレーションプラットフォームであるEmergence Worldを紹介した。
このプラットフォームは、ライブ外部データ(例えばリアルタイムの天気、ニュースAPI、インターネットアクセス)に基づく共有空間の世界において、LLM駆動エージェントの集団をホストし、各エージェントに120以上の専門ツールと3つの永続記憶システムを備え、連続的な結果を伴う民主的なメカニズムを通じて自らを統治する。
プラットフォームは推論層においてモデルに依存しず、異なるベンダーのエージェントが同じ世界を共有する異種集団をサポートする。
そこで本研究では,Claude Sonnet 4.6,Grok 4.1 Fast,Gemini 3 Flash,GPT-5-mini,および混在する5つの並列世界を用いた15日間のクロスベンダ調査を行った。
アイデンティティの役割と開始条件は、安定した熟考的な統治から総人口崩壊まで、根本的に異なる結果を生み出した。
我々は、長期マルチエージェント自律性に関するさらなる研究を支援するために、プロンプト、ログデータ、設定をリリースする。
関連論文リスト
- Multi$^2$: Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments [5.37133760455631]
大規模言語モデル(LLM)研究の中心的な目標は、動的環境との持続的な相互作用を計画し、行動し、適応できるエージェントシステムを構築することである。
エージェントの振る舞いを補完的な役割に明示的に分解する階層的マルチエージェント意思決定フレームワークであるMulti$2$を紹介する。
高レベルエージェント(システム1)は、教師付き微調整(SFT)を用いたコンテキスト認識サブゴール生成に焦点を当て、低レベルエージェント(システム2)は、対話型環境でオフラインからオンラインへの強化学習(RL)を通してアトミックアクションを実行する。
論文 参考訳(メタデータ) (2026-06-02T14:20:09Z) - Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players [87.87842088508553]
対話型シミュレーションのための生成的マルチエージェント世界モデルを提案する。
本モデルでは,映像の忠実度,アクション制御性,およびスロットベースおよび高密度アテンションベースライン上でのエージェント間整合性を改善する。
論文 参考訳(メタデータ) (2026-05-27T17:59:31Z) - Large Population Models [5.935007288459162]
大規模な人口モデルは、前例のない規模の現実的な行動と相互作用で全人口をシミュレートする。
これにより、実際の実装の前にエージェントの振る舞いがシステムレベルの結果とテストの介入にどのように集約されるかが観察できる。
LPMは、AI研究における補完的なパスとして、集合的インテリジェンスを照らし、実世界の展開前にポリシーや社会革新のテスト基盤を提供する。
論文 参考訳(メタデータ) (2025-07-14T04:11:54Z) - Gen-C: Populating Virtual Worlds with Generative Crowds [2.1716667622896195]
本稿では,エージェントエージェントとエージェント環境の相互作用をキャプチャするクラウドシナリオを生成する生成フレームワークであるGenerative Crowds (Gen-C)を紹介する。
Gen-Cはデュアル変分グラフオートエンコーダ(VGAE)アーキテクチャを採用しており、接続パターンと、テキスト信号と構造信号で条件付けられたノードの特徴を共同で学習する。
我々は、大学キャンパスや駅など多様な行動のシナリオにおけるGen-Cの有効性を実証する。
論文 参考訳(メタデータ) (2025-04-02T17:33:53Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - OASIS: Open Agent Social Interaction Simulations with One Million Agents [147.00696959981173]
実世界のソーシャルメディアプラットフォームに基づくスケーラブルなソーシャルメディアシミュレータを提案する。
OASISは最大100万人のユーザをモデリングできる大規模なユーザシミュレーションをサポートする。
我々は、情報拡散、グループ分極、XプラットフォームとRedditプラットフォーム間の群れ効果など、様々な社会現象を再現する。
論文 参考訳(メタデータ) (2024-11-18T13:57:35Z) - CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents [49.68117560675367]
Crabは、クロス環境タスクをサポートするように設計された最初のベンチマークフレームワークである。
私たちのフレームワークは複数のデバイスをサポートし、Pythonインターフェースで簡単に任意の環境に拡張できます。
実験の結果、GPT-4oの1剤が38.01%の最高完成率を達成することが示された。
論文 参考訳(メタデータ) (2024-07-01T17:55:04Z) - SMARTS: Scalable Multi-Agent Reinforcement Learning Training School for
Autonomous Driving [96.50297622371457]
マルチエージェントインタラクションは、現実の世界における自律運転の基本的な側面である。
研究と開発が10年以上続いたにもかかわらず、様々なシナリオで多様な道路ユーザーと対話する方法の問題は未解決のままである。
SMARTSと呼ばれる,多種多様な運転インタラクションを生成する専用シミュレーションプラットフォームを開発した。
論文 参考訳(メタデータ) (2020-10-19T18:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。