論文の概要: CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies
- arxiv url: http://arxiv.org/abs/2606.16613v1
- Date: Mon, 15 Jun 2026 12:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.505218
- Title: CoffeeBench: Benchmarking Long-Horizon LLM Agents in Heterogeneous Multi-Agent Economies
- Title(参考訳): CoffeeBench:異種多剤エコノミーにおける長期LDMエージェントのベンチマーク
- Authors: Issa Sugiura, Daichi Hattori, Kazuo Araragi, Keita Ogawa, Shota Onose, Taro Makino, Teppei Usuki, Takashi Ishida,
- Abstract要約: 異種企業からなる長期マルチエージェント経済におけるLCMエージェント評価のためのベンチマークであるCoffeeBenchを紹介する。
農家2人、ロースター2人、小売店2人が90日間のシミュレーションで事業を自律的に運営している。
すべてのモデルがパッシブベースラインを上回り、アクションを取らず、ほとんどのモデルが肯定的な純利益を達成する。
- 参考スコア(独自算出の注目度): 2.545704705278791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM agents become capable of increasingly long-horizon tasks, evaluating their performance in economic systems is becoming increasingly important. Unlike existing benchmarks that primarily evaluate a single agent interacting with a passive environment, economic systems are inherently multi-agent, requiring autonomous agents to communicate, negotiate, and transact while pursuing their own objectives over extended periods. We introduce CoffeeBench, a benchmark for evaluating LLM agents in a long-horizon multi-agent economy composed of heterogeneous firms. In CoffeeBench, two farmers, two roasters, and two retailers autonomously operate their businesses over a 90-day simulation, each seeking to maximize cumulative net income through communication and transactions while managing cash, inventory, and pricing. The evaluated model controls one coffee roaster, while the remaining firms are controlled by fixed reference agents. Across several recent open-weight and proprietary LLMs, all models outperform a passive baseline that takes no actions, with most achieving positive net income. Analysis of agent behavior reveals substantial differences in long-horizon economic interaction: higher-performing models communicate more actively with other firms, whereas Claude~Haiku~4.5 exhibits an idle-drift failure mode, repeatedly choosing inaction despite producing coherent assessments and plans. We release our code and agent trajectories to support future research.
- Abstract(参考訳): LLMエージェントがますます長期のタスクをこなすようになり、経済システムにおけるそれらのパフォーマンスを評価することがますます重要になっている。
受動的環境と相互作用する単一のエージェントを主に評価する既存のベンチマークとは異なり、経済システムは本質的にマルチエージェントであり、自律的なエージェントが長期にわたって自身の目的を追求しながら通信、交渉、取引を行う必要がある。
異種企業からなる長期マルチエージェント経済におけるLCMエージェント評価のためのベンチマークであるCoffeeBenchを紹介する。
コーヒーベンチでは、農家2人、ロースター2人、小売店2人が90日間のシミュレーションで事業を自律的に運営しており、それぞれが現金、在庫、価格を管理しながら、コミュニケーションと取引を通じて累積純利益を最大化しようとしている。
評価されたモデルは1つのコーヒーロアスターを制御し、残りの会社は固定参照エージェントによって制御される。
最近のオープンウェイトおよびプロプライエタリなLCMでは、すべてのモデルがパッシブベースラインを上回り、アクションを取らず、ほとんどのモデルがポジティブな純利益を達成している。
高性能モデルは他の企業とより活発にコミュニケーションするのに対し、Claude~Haiku~4.5はアイドル・ドリフトの失敗モードを示し、一貫性のある評価と計画を生み出したにもかかわらず、繰り返し不作用を選択する。
将来の研究を支援するため、コードとエージェントのトラジェクトリをリリースします。
関連論文リスト
- Multi$^2$: Hierarchical Multi-Agent Decision-Making with LLM-Based Agents in Interactive Environments [5.37133760455631]
大規模言語モデル(LLM)研究の中心的な目標は、動的環境との持続的な相互作用を計画し、行動し、適応できるエージェントシステムを構築することである。
エージェントの振る舞いを補完的な役割に明示的に分解する階層的マルチエージェント意思決定フレームワークであるMulti$2$を紹介する。
高レベルエージェント(システム1)は、教師付き微調整(SFT)を用いたコンテキスト認識サブゴール生成に焦点を当て、低レベルエージェント(システム2)は、対話型環境でオフラインからオンラインへの強化学習(RL)を通してアトミックアクションを実行する。
論文 参考訳(メタデータ) (2026-06-02T14:20:09Z) - Cattle Trade: A Multi-Agent Benchmark for LLM Bluffing, Bidding, and Bargaining [0.5691230599672109]
我々は,大規模言語モデル(LLM)を戦略的推論のエージェントとして評価するためのベンチマークであるtextscCattle Tradeを紹介した。
このベンチマークは、1つのロングホライゾンゲーム内でのオークション、隠れオフのトレードチャレンジ(TC)、バーゲティング、ブラッフィング、相手モデリング、リソース割り当てを組み合わせたものだ。
我々は,242ゲームに対して,コスト効率のよい7つの言語モデルと3つの決定論的コードエージェントを評価した。
論文 参考訳(メタデータ) (2026-05-14T08:20:03Z) - AgentCollab: A Self-Evaluation-Driven Collaboration Paradigm for Efficient LLM Agents [37.232397795331444]
我々は,エージェント実行中に異なる推論能力を持つモデルを動的にコーディネートする,自己駆動型協調推論フレームワークであるAgenCollabを提案する。
外部ルーティングモジュールに頼る代わりに、このフレームワークはエージェント自身の自己反射信号を使用して、現在の推論軌道が有意義な進歩を遂げているかどうかを判断する。
論文 参考訳(メタデータ) (2026-03-27T03:07:34Z) - AgenticPay: A Multi-Agent LLM Negotiation System for Buyer-Seller Transactions [49.49718899185783]
大規模言語モデル(LLM)ベースのエージェントは、自律的に交渉、コーディネート、トランザクショナル化がますます期待されている。
本稿では,自然言語によるマルチエージェント・バイヤー・セラー交渉のためのベンチマークおよびシミュレーションフレームワークであるAgenticPayを紹介する。
論文 参考訳(メタデータ) (2026-02-05T18:50:36Z) - When Agents Trade: Live Multi-Market Trading Benchmark for LLM Agents [74.55061622246824]
Agent Market Arena (AMA)は、LLM(Large Language Model)ベースのトレーディングエージェントを評価するための、初めてのリアルタイムベンチマークである。
AMAは、検証済みのトレーディングデータ、専門家チェックされたニュース、および統一されたトレーディングフレームワーク内に多様なエージェントアーキテクチャを統合する。
GPT-4o、GPT-4.1、Claude-3.5-haiku、Claude-sonnet-4、Gemini-2.0-flashにまたがる薬剤を評価する。
論文 参考訳(メタデータ) (2025-10-13T17:54:09Z) - QuantAgents: Towards Multi-agent Financial System via Simulated Trading [40.636918662488505]
QuantAgentsは、シミュレーショントレーディングを統合するマルチエージェントシステムである。
QuantAgentsは、シミュレートされたトレーディングアナリスト、リスクコントロールアナリスト、マーケットニュースアナリスト、マネージャの4つのエージェントで構成されている。
本システムは,実世界の市場におけるパフォーマンスと,模擬取引における予測精度の2つの側面からフィードバックを受けるためのエージェントを動機付けている。
論文 参考訳(メタデータ) (2025-10-06T09:45:57Z) - LMAgent: A Large-scale Multimodal Agents Society for Multi-user Simulation [66.52371505566815]
大規模言語モデル(LLM)ベースのAIエージェントは、人間のような知性を達成するために、大きな進歩を遂げた。
LMAgentは,マルチモーダル LLM に基づく大規模かつマルチモーダルなエージェント社会である。
LMAgentでは、友人とチャットする以外に、エージェントは自動で商品を閲覧、購入、レビューしたり、ライブストリーミングのeコマースを行うこともできる。
論文 参考訳(メタデータ) (2024-12-12T12:47:09Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。