論文の概要: RetailBench: Benchmarking long horizon reasoning and coherent decision making of LLM agents in realistic retail environments
- arxiv url: http://arxiv.org/abs/2606.15862v3
- Date: Fri, 19 Jun 2026 10:48:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.821614
- Title: RetailBench: Benchmarking long horizon reasoning and coherent decision making of LLM agents in realistic retail environments
- Title(参考訳): RetailBench: リアルな小売環境におけるLLMエージェントの長期水平推論とコヒーレントな意思決定のベンチマーク
- Authors: Linghua Zhang, Jun Wang, Jingtong Wu, Zhisong Zhang,
- Abstract要約: 大規模言語モデル (LLM) エージェントは、短時間水平、よく観察されたタスクにおいて急速に進歩してきたが、動的な長距離環境におけるコヒーレントな決定を持続する能力は、いまだに不確実である。
RetailBenchは、単一店舗のスーパーマーケットオペレーションにおいて、ツールを使用するLLMエージェントを評価するためのデータグラウンドシミュレーションベンチマークである。
- 参考スコア(独自算出の注目度): 8.751899157366005
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language model (LLM) agents have made rapid progress on short-horizon, well-scoped tasks, yet their ability to sustain coherent decisions in dynamic long-horizon environments remains uncertain. We introduce RetailBench, a data-grounded simulation benchmark for evaluating tool-using LLM agents in single-store supermarket operation. RetailBench models retail management as a partially observable decision process and is designed to support thousand-day-scale simulations. In this environment, agents must manage pricing, replenishment, supplier selection, shelf assortment, inventory aging, customer feedback, external events, and cash-flow constraints. We evaluate seven contemporary LLMs under representative agent frameworks over a 180-day evaluation horizon and compare them with a privileged oracle policy. Results show substantial variation across models: only a small subset survives the full evaluation horizon, and even the strongest LLM runs remain substantially behind the oracle policy in final net worth and sales outcomes. Behavioral analysis attributes these gaps to incomplete evidence acquisition, surface-level decision making, and the lack of a consistent long-horizon policy. RetailBench provides a controlled testbed for studying reliable autonomy in economically grounded long-horizon decision-making.
- Abstract(参考訳): 大規模言語モデル (LLM) エージェントは, 短時間でよく観察されたタスクにおいて急速に進歩しているが, 動的長期的環境下でのコヒーレントな決定を持続する能力はいまだに不確実である。
RetailBenchは、単一店舗のスーパーマーケットオペレーションにおいて、ツール利用のLLMエージェントを評価するためのデータグラウンドシミュレーションベンチマークである。
RetailBenchは、小売管理を部分的に監視可能な意思決定プロセスとしてモデル化し、数千日規模のシミュレーションをサポートするように設計されている。
この環境では、エージェントは価格、補充、サプライヤの選択、棚の品揃え、在庫の老朽化、顧客のフィードバック、外部イベント、キャッシュフローの制約を管理する必要がある。
代表的エージェント・フレームワークによる7つの現代LCMを180日間の評価地平線上で評価し,特権的オラクル政策と比較した。
小さなサブセットだけが完全な評価の地平線を乗り越え、最強のLCMでさえ、最終的な純価値と販売実績において、オラクル政策のかなり後方に留まっている。
行動分析はこれらのギャップを不完全な証拠取得、表面レベルの意思決定、一貫した長期水平政策の欠如に起因している。
RetailBenchは、経済基盤の長期的意思決定において信頼性の高い自律性を研究するための制御されたテストベッドを提供する。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Market-Bench: Benchmarking Large Language Models on Economic and Trade Competition [102.73682784993169]
本稿では,経済関連タスクにおける大規模言語モデル(LLM)の能力を評価するベンチマークであるtextbfMarket-Benchを紹介する。
我々は、LLMが商品の調達・販売を担当する小売業者として機能するマルチエージェントサプライチェーン経済モデルを構築した。
Market-Benchは入札、価格、スローガン、販売、バランスシートの完全な軌跡を記録し、経済、運用、セマンティックメトリクスによる自動評価を可能にしている。
論文 参考訳(メタデータ) (2026-04-07T07:23:51Z) - RetailBench: Evaluating Long-Horizon Autonomous Decision-Making and Strategy Stability of LLM Agents in Realistic Retail Environments [8.751899157366005]
LLM(Large Language Model)ベースのエージェントは、短期的かつ高度に構造化されたタスクにおいて顕著な成功を収めた。
RetailBenchは、現実的な商業シナリオにおいて、長期の自律的な意思決定を評価するために設計された高忠実度ベンチマークである。
低レベルの行動実行から高レベルの戦略的推論を分離するEvolving Strategy & Executionフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:35:52Z) - StockBench: Can LLM Agents Trade Stocks Profitably In Real-world Markets? [44.10622904101254]
大規模言語モデル(LLM)は、最近、自律エージェントとして強力な能力を示した。
実時間複数ヶ月の株式トレーディング環境でLLMエージェントを評価するためのベンチマークであるStockBenchを紹介する。
我々の評価では、ほとんどのLLMエージェントは、単純な買い買い得ベースラインよりも優れているが、いくつかのモデルでは、より高いリターンをもたらし、より効果的にリスクを管理する可能性を実証している。
論文 参考訳(メタデータ) (2025-10-02T16:54:57Z) - AI Playing Business Games: Benchmarking Large Language Models on Managerial Decision-Making in Dynamic Simulations [0.0]
本研究は,ビジネスにおける意思決定にビジネスゲームを用いた新しいベンチマークを解析する。
この研究は、再現可能なオープンアクセス管理シミュレータを提案することで、AIに関する最近の文献に貢献する。
論文 参考訳(メタデータ) (2025-09-30T14:43:05Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。