論文の概要: CEO-Bench: Can Agents Play the Long Game?
- arxiv url: http://arxiv.org/abs/2606.18543v1
- Date: Tue, 16 Jun 2026 23:37:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.935293
- Title: CEO-Bench: Can Agents Play the Long Game?
- Title(参考訳): CEO-Bench: エージェントは長いゲームをできるのか?
- Authors: Haozhe Chen, Karthik Narasimhan, Zhuang Liu,
- Abstract要約: 言語モデルエージェントは、孤立した短期的なタスクにおいて、熟練した実行者になりつつある。
しかし、現実世界の課題には、エージェントでほとんどテストされていない高度なスキルの組み合わせが必要です。
実世界の代表的タスクをシミュレートすることで、これらの能力を一緒に評価するCEO-Benchを紹介します。
- 参考スコア(独自算出の注目度): 31.540356544517593
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model agents are becoming proficient executors at isolated, short-horizon tasks such as software engineering and customer service. Yet real-world challenges require a combination of sophisticated skills that remain largely untested in agents: (1) navigating long horizons amid uncertainty; (2) acquiring information in noisy environments; (3) adapting to a changing world; (4) orchestrating multiple moving parts toward a coherent goal. We introduce CEO-Bench, which evaluates these capabilities together by simulating a representative real-world task: operating a startup for 500 days. An agent manages pricing, marketing, budgeting, and many other aspects of a fictional company through a programmable Python interface, operating in the same environment and facing the same challenges as a human CEO. Success demands analyzing noisy, interconnected business databases, translating signals into sound strategy, and coordinating many decisions with programming. The strongest agents write sophisticated code that simulates customer cohorts to forecast future cash and mines negotiation history to uncover hidden customer preferences. Even so, most state-of-the-art models struggle in this environment. Only Claude Opus 4.8 and GPT-5.5 finish above the $1M starting balance, and neither consistently turns a profit. CEO-Bench takes a first step toward measuring the intelligence required to drive sustained, adaptive progress over time.
- Abstract(参考訳): 言語モデルエージェントは、ソフトウェアエンジニアリングやカスタマーサービスといった短地的なタスクにおいて、熟練した実行者になりつつある。
しかし、現実世界の課題には、(1)不確実性の中で長い地平線をナビゲートすること、(2)ノイズの多い環境で情報を取得すること、(3)変化する世界に適応すること、(4)複数の可動部を一貫性のある目標に向けて編成すること、といった、エージェントでほとんどテストされていない高度なスキルの組み合わせが必要である。
CEO-Benchを紹介します。これは、500日間のスタートアップ運用という、現実世界の代表的なタスクをシミュレートすることで、これらの機能を一緒に評価します。
エージェントは、プログラム可能なPythonインターフェースを通じて、架空の企業の価格、マーケティング、予算、その他多くの側面を管理し、同じ環境で動作し、人間のCEOと同じ課題に直面します。
成功はノイズを分析し、相互接続されたビジネスデータベースを解析し、信号を健全な戦略に変換し、多くの決定をプログラミングと調整することを要求する。
最強のエージェントは、顧客のコホートをシミュレートして将来の現金を予測する洗練されたコードを書き、顧客の好みを隠蔽するために交渉の歴史を掘り下げる。
それでも、ほとんどの最先端モデルは、この環境で苦労しています。
クロード・オプス4.8とGPT-5.5のみが100万ドルのスタートバランスを上回り、いずれも常に利益を上げなかった。
CEO-Benchは、持続的で適応的な進歩を促進するために必要なインテリジェンスを測定するための第一歩を踏み出した。
関連論文リスト
- Benchmarking Open-Ended Multi-Agent Coordination in Language Agents [48.1363632826625]
Alemは、手続き的に生成されたコーディネーションタスク、ソフトな特殊化、コミュニケーション、制御可能なコーディネーションの難しさを、長い水平サバイバルの世界に埋め込む。
Craftaxライクなダイナミックス上に構築されたオープンなマルチエージェント協調のためのJAXベースのベンチマークである$alem$を紹介します。
論文 参考訳(メタデータ) (2026-06-06T21:13:43Z) - $\texttt{YC-Bench}$: Benchmarking AI Agents for Long-Term Planning and Consistent Execution [38.30265058791818]
このベンチマークは、エージェントがシミュレーションされたスタートアップを数百のターンにまたがる1年間の地平線上で実行することで、能力を評価する。
プロプライエタリとオープンソースの両方で、それぞれ3つのシードに対して12のモデルを評価します。
クレード・オプス4.6は1.27Mで平均的なファイナルファンドを達成し、GLM-5は1.21Mで11$times$低い推論コストを達成した。
論文 参考訳(メタデータ) (2026-04-01T17:52:19Z) - SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications? [21.241252187534055]
SWE-Bench Mobileは、実運用iOSから派生した現実的なソフトウェアエンジニアリングタスクのコーディングエージェントを評価するためのベンチマークである。
孤立した問題やバグ修正に焦点を当てた既存のベンチマークとは異なり、SWE-Bench Mobileは産業開発における完全な複雑さを捉えている。
論文 参考訳(メタデータ) (2026-02-10T08:51:11Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks [55.03911355902567]
我々は、デジタルワーカーと同じような方法で世界と対話するAIエージェントを評価するためのベンチマークであるTheAgentCompanyを紹介する。
最も競争力のあるエージェントは、タスクの30%を自律的に完了させることができる。
これは、実際の職場の設定でLMエージェントをシミュレートすることで、タスク自動化に関する微妙な絵を描く。
論文 参考訳(メタデータ) (2024-12-18T18:55:40Z) - Richelieu: Self-Evolving LLM-Based Agents for AI Diplomacy [24.521882655442187]
外交は、特に必要な交渉段階を考慮して、決定空間の停滞を伴う。
従来のAIエージェントは、マルチエージェントタスクにおいて、マルチステップゲームと大きなアクションスペースを扱う能力を示した。
我々は、包括的なマルチエージェントミッションを実行することができる人間のようなエージェントを作成するAIの可能性を探究することを目的としている。
論文 参考訳(メタデータ) (2024-07-09T12:37:54Z) - AgentGym: Evolving Large Language Model-based Agents across Diverse Environments [116.97648507802926]
大規模言語モデル(LLM)はそのようなエージェントを構築するための有望な基盤と考えられている。
我々は、自己進化能力を備えた一般機能 LLM ベースのエージェントを構築するための第一歩を踏み出す。
我々はAgentGymを提案する。AgentGymは、幅広い、リアルタイム、ユニフォーマット、並行エージェント探索のための様々な環境とタスクを特徴とする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-06-06T15:15:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。