論文の概要: Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation
- arxiv url: http://arxiv.org/abs/2606.17459v1
- Date: Tue, 16 Jun 2026 03:20:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.238043
- Title: Can LLMs Be CEOs? Benchmarking Strategic Resource Reallocation with Multi-Role Agent Simulation
- Title(参考訳): LLMsはCEOになれるか?マルチロールエージェントシミュレーションによる戦略的資源再配置のベンチマーク
- Authors: Yuyang Dai, Xueqing Peng, Lingfei Qian, Zhuohan Xie,
- Abstract要約: 大規模言語モデル(LLM)の意思決定能力を評価することが研究の優先事項となっている。
我々は、CEOレベルの戦略的リソース再配置に基づいてLCMを評価するベンチマークであるtextsc CEO-Benchを紹介する。
13のシナリオにおける5つのフロンティアモデルに対する実験により、全てのモデルが高い構造的妥当性を達成するが、戦略的なキャリブレーションにおいて急変することが明らかになった。
- 参考スコア(独自算出の注目度): 5.488097487012986
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Evaluating the decision-making capabilities of large language models (LLMs) is a growing research priority, yet existing benchmarks focus on isolated cognitive tasks such as reasoning, knowledge retrieval, and economic rationality in stylized settings. These evaluations overlook the defining challenge of real executive decision-making: integrating conflicting recommendations from specialized stakeholders under information asymmetry, organizational constraints, and temporal dependencies. We introduce \textsc{CEO-Bench}, a multi-agent benchmark that evaluates LLMs on CEO-level strategic resource reallocation -- the process of redirecting capital across business units in a multi-round, constraint-rich organizational environment. In \textsc{CEO-Bench}, LLM agents receive conflicting advice from four role-conditioned C-suite advisors (CFO, CTO, COO, CMO), each with private signals and distinct priorities, and must synthesize these into a concrete allocation plan evaluated along four dimensions: role integration, conditional boldness, history-sensitive judgment, and plan validity. Experiments across five frontier models on 13 scenarios reveal that all models achieve high structural validity but diverge sharply on strategic calibration -- the hardest capability layer. We identify systematic failure modes including single-advisor capture, conservative default under ambiguity, and historical amnesia, and uncover a structural integration-boldness tradeoff: models that engage more deeply with conflicting perspectives tend to produce less decisive action. These findings delineate the current capability boundary of LLMs as organizational decision-makers and inform the design of future AI-assisted executive systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の意思決定能力を評価することは研究の優先事項となっているが、既存のベンチマークでは推論、知識検索、スタイリングされた設定における経済的合理性といった独立した認知タスクに焦点を当てている。
これらの評価は、情報非対称性、組織的制約、時間的依存関係の下で、専門ステークホルダーからの競合するレコメンデーションを統合することである。
マルチラウンドで制約に富んだ組織環境において、ビジネスユニット間で資本をリダイレクトするプロセスである、CEOレベルの戦略的リソース再配置に関するLLMを評価するマルチエージェントベンチマークである‘textsc{ CEO-Bench} を紹介します。
textsc{ CEO-Bench} では、LLMエージェントは、4つのロール条件付きC-スーツアドバイザー(CFO、CTO、COO、CMO)から矛盾するアドバイスを受け取り、それぞれがプライベートシグナルと異なる優先順位を持ち、これらを4つの次元に沿って評価された具体的なアロケーション計画(ロール統合、条件付き大胆さ、履歴に敏感な判断、計画の有効性)にまとめなければならない。
13のシナリオで5つのフロンティアモデルにまたがる実験では、すべてのモデルが高い構造的妥当性を達成するが、戦略的なキャリブレーション(最も難しい能力層)に強く依存していることが明らかになった。
単一アドバイザのキャプチャ、曖昧さの下での保守的なデフォルト、歴史的なアムネシアなど、システマティックな障害モードを特定し、構造的な統合とボドネスのトレードオフを明らかにする。
これらの知見は、LLMの現在の能力境界を組織的意思決定者として説明し、将来のAI支援エグゼクティブシステムの設計を通知する。
関連論文リスト
- Position: agentic AI orchestration should be Bayes-consistent [92.04373485710285]
本稿では,エージェントシステムのオーケストレーションレベルにおいて,一貫性のある意思決定にはベイズ原理が必要であることを論じる。
信念とユーティリティ対応ポリシーがエージェントAIオーケストレーションをどのように改善するかを説明するための例とデザインパターンを提供する。
論文 参考訳(メタデータ) (2026-05-01T15:43:43Z) - Foresight Optimization for Strategic Reasoning in Large Language Models [24.13855510359357]
我々は、大規模言語モデル(LLM)における戦略的推論を強化するために、フォレストポリシー最適化(FoPO)を導入する。
FoPOは、対立するモデリング原則をポリシー最適化に統合することで、自己利益とそれに対応する影響の両方を明確に考慮することができる。
実験により、FoPOは様々な大きさと起源のLSMをまたいだ戦略的推論を著しく向上させることが示された。
論文 参考訳(メタデータ) (2026-04-15T07:55:41Z) - Can LLM Agents Be CFOs? A Benchmark for Resource Allocation in Dynamic Enterprise Environments [39.051947374027435]
長期のエンタープライズリソースアロケーションにおけるエージェント評価のための最初のベンチマークであるEnterpriseArenaを紹介する。
CFOスタイルの意思決定を、企業レベルの財務データ、匿名化されたビジネス文書、マクロ経済と産業のシグナル、専門家が検証した運用ルールを組み合わせた132ヶ月の企業シミュレータでインスタンス化する。
実験の結果、ランの16%のみが全地平線を乗り越えており、より大きなモデルでは、より小さなモデルよりも確実に性能が良くないことがわかった。
論文 参考訳(メタデータ) (2026-03-24T18:25:00Z) - Generative AI in Managerial Decision-Making: Redefining Boundaries through Ambiguity Resolution and Sycophancy Analysis [0.45880283710344055]
本研究は, アンビグニティ検出に関する様々なモデルを比較し, 系統的解決プロセスが応答品質をいかに向上させるかを評価する。
新たな4次元ビジネス曖昧性分類法を用いて,戦略的,戦術的,運用的シナリオにまたがって,ループ内人為的実験を行った。
モデルは内部の矛盾や文脈の曖昧さを検出するのに優れているが、構造的言語的ニュアンスに苦しむ。
論文 参考訳(メタデータ) (2026-03-04T12:10:56Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - How Strategic Agents Respond: Comparing Analytical Models with LLM-Generated Responses in Strategic Classification [11.614944245315186]
我々は、エージェントと意思決定者の相互作用を研究するために戦略分類を用いる。
i) LLMはSC設定において効果的で社会的に責任のある戦略を生成することができるか?
意思決定方針にアクセスできなくても、LLMはエージェントのスコアと資格を改善する効果的な戦略を生み出すことができることを示す。
論文 参考訳(メタデータ) (2025-01-20T01:39:03Z) - LLM as a Mastermind: A Survey of Strategic Reasoning with Large Language Models [75.89014602596673]
戦略推論は、戦略を調整しながら、マルチエージェント設定における敵の行動を理解し、予測する必要がある。
大規模言語モデルを用いた戦略的推論に関連するスコープ,アプリケーション,方法論,評価指標について検討する。
戦略的推論を重要な認知能力として重要視し、将来の研究の方向性や潜在的な改善に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。