論文の概要: ORAgentBench: Can LLM Agents Solve Challenging Operations Research Tasks End to End?
- arxiv url: http://arxiv.org/abs/2606.19787v1
- Date: Thu, 18 Jun 2026 04:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.650686
- Title: ORAgentBench: Can LLM Agents Solve Challenging Operations Research Tasks End to End?
- Title(参考訳): ORAgentBench: LLMエージェントは、調査タスクを終了させることができるか?
- Authors: Jiajun Li, Mingshu Cai, Yixuan Li, Yu Ding, Ran Hou, Guanyu Nie, Xiongwei Han, Wanyuan Wang,
- Abstract要約: ORAgentBenchは、自律エージェントを運用研究タスクで評価するための実行基盤ベンチマークである。
さまざまな運用シナリオにまたがる107のヒューマンレビュータスクが含まれており、それぞれに自然言語で簡潔な複数ファイルデータ、設定アーティファクト、必要なスキーマがパッケージされている。
14のフロンティアエージェントモデルによる実験では、現在のエージェントは信頼性の高いORの実践から程遠いままである。
- 参考スコア(独自算出の注目度): 28.383940617377856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly deployed as autonomous agents for multi-step tasks in executable environments, yet their ability to perform realistic operations research (OR) work remains unclear. Existing OR evaluations often decouple modeling from solving, rely on pre-formalized or text-only instances, and rarely test the full workflow from operational artifacts to validated decisions. In this work, we introduce ORAgentBench, an execution-grounded benchmark for evaluating autonomous agents on challenging end-to-end operations research tasks. It contains 107 human-reviewed tasks across diverse operational scenarios, each packaged in an isolated environment with a natural-language brief, multi-file data, configuration artifacts, and a required submission schema. Agents must write and run solution code, and their submissions are evaluated by hidden validators for schema validity, hard-constraint feasibility, and normalized objective quality. Experiments with fourteen frontier agent-model configurations show that current agents remain far from reliable OR practice. The best agent passes only 35.51% of all tasks and 20.59% of hard tasks, and many feasible submissions still fall below the required quality threshold. Failure analysis further shows that errors are dominated by strategic weaknesses, including missed operational rules, brittle formulations, weak feasible-solution construction, and insufficient solution improvement. OR-specific procedural skills increase hard-task feasibility, but do not reliably improve solution quality or pass rate. These results suggest that progress in OR agents requires moving beyond plausible optimization code toward dependable, high-quality operational decision-making.
- Abstract(参考訳): 大規模言語モデルは、実行可能環境における多段階タスクのための自律エージェントとしてますますデプロイされているが、現実的な操作研究(OR)の実施能力は未だ不明である。
既存のOR評価は、しばしばモデリングを解決から切り離し、形式化されたインスタンスやテキストのみのインスタンスに依存し、完全なワークフローを運用成果物から検証された決定に至るまで、テストすることは滅多にない。
本稿では,ORAgentBenchについて紹介する。ORAgentBenchは,エンド・ツー・エンドの運用研究課題に対する自律エージェントの評価を行うためのベンチマークである。
さまざまな運用シナリオにまたがる107のヒューマンレビュータスクが含まれており、それぞれが独立した環境にパッケージされ、自然言語で簡潔な複数ファイルデータ、設定アーティファクト、必要なスキーマが提供されている。
エージェントはソリューションコードを書き、実行しなければならない。それらの提出は、スキーマの妥当性、制約の厳しい実現可能性、正規化された客観的品質に関する隠れバリデータによって評価される。
14のフロンティアエージェントモデルによる実験では、現在のエージェントは信頼性の高いORの実践から程遠いままである。
最高のエージェントは、全てのタスクの35.51%、ハードタスクの20.59%しか通過せず、多くの実行可能な提出は、依然として要求される品質基準を下回っている。
失敗分析により、エラーは、運用ルールの欠如、不安定な定式化、弱い実現可能なソリューション構築、ソリューション改善の不十分など、戦略的弱さによっても支配されていることが示された。
OR固有の手続きスキルは、ハードタスクの実現性を高めるが、ソリューションの品質やパスレートを確実に改善しない。
これらの結果から, ORエージェントの進展は, 信頼性の高い, 高品質な運用上の意思決定に向けて, 妥当な最適化コードを超えて進まなければならないことが示唆された。
関連論文リスト
- Think Twice, Act Once: Verifier-Guided Action Selection For Embodied Agents [23.69429098915734]
Verifier-Guided Action Selection (VegAS)はMLLMベースのエンボディエージェントの堅牢性を改善するために設計されたテストタイムフレームワークである。
我々は、VeGASが常に一般化を改善し、CoTベースラインよりも36%の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2026-05-12T18:08:24Z) - OccuBench: Evaluating AI Agents on Real-World Professional Tasks via Language Environment Simulation [57.505743202759646]
OccuBenchは10の業界カテゴリと65の専門ドメインにわたる100の現実のプロフェッショナルタスクシナリオをカバーするベンチマークである。
我々のマルチエージェント合成パイプラインは, 可溶性, 校正困難, 文書基底の多様性を保証した評価インスタンスを自動生成する。
論文 参考訳(メタデータ) (2026-04-13T00:27:32Z) - From Task Solving to Robust Real-World Adaptation in LLM Agents [17.122224644097304]
大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。
名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
論文 参考訳(メタデータ) (2026-02-02T20:10:40Z) - AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Agent-Oriented Planning in Multi-Agent Systems [54.429028104022066]
マルチエージェントシステムにおけるエージェント指向計画のための新しいフレームワークであるAOPを提案する。
本研究では, エージェント指向計画の3つの重要な設計原則, 可解性, 完全性, 非冗長性を明らかにする。
大規模実験は,マルチエージェントシステムにおける単一エージェントシステムと既存の計画戦略と比較して,現実の問題を解決する上でのAOPの進歩を実証している。
論文 参考訳(メタデータ) (2024-10-03T04:07:51Z) - Adaptive In-conversation Team Building for Language Model Agents [33.03550687362213]
複数の大規模言語モデル(LLM)エージェントを活用することは、複雑なタスクに取り組む上で有望なアプローチであることが示されている。
私たちの新しい適応型チーム構築パラダイムは、Captain Agentという新しいエージェント設計を通じて実現された柔軟なソリューションを提供します。
6つの実世界のシナリオに対する包括的な評価は、Captain Agentが既存のマルチエージェントメソッドを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-29T18:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。