論文の概要: EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent
- arxiv url: http://arxiv.org/abs/2606.17698v1
- Date: Tue, 16 Jun 2026 09:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.369381
- Title: EComAgentBench: Benchmarking Shopping Agents on Long-Horizon Tasks with Distributed Hidden Intent
- Title(参考訳): EComAgentBench: 分散隠れインテントによる長期タスク上のショッピングエージェントのベンチマーク
- Authors: Zeyao Du, Tong Li, Haibo Zhang,
- Abstract要約: EComAgentBenchは、実際のAmazon製品とレビューに根ざした62のタスクのベンチマークである。
各タスクは、要求を可視クエリ、ツールゲートプロファイル、スクリプトによる明確化に分散する。
typed, source-tagged rubricsは、各タスクをグレードし、各障害を要件とそのソースに原因付ける。
- 参考スコア(独自算出の注目度): 4.321184054821894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLM-based shopping agents enter production, existing benchmarks fail to capture how a shopper's requirements arrive: stated implicitly in the query, recorded in a profile, or revealed only when the right question is asked. Benchmarks that expose full intent upfront and grade only the final choice can neither pose this long-horizon challenge nor explain which requirement an agent missed. To address this gap, we introduce EComAgentBench, a benchmark of 662 tasks grounded in real Amazon products and reviews. Each task scatters these requirements across a visible query, a tool-gated profile, and scripted clarification; an agent must uncover hidden intent, verify candidates against attributes and review evidence, and commit to a single product within 100 tool calls. Moreover, typed, source-tagged rubrics grade every task, attributing each failure to a requirement and its source. Construction is automated yet reliable, with every answer fixed in code before any text is generated and every sample validated. Our evaluation of seven models reveals that even the strongest attains only 57.1% overall accuracy, and rubric satisfaction degrades from visible to hidden sources. Overall, we believe EComAgentBench will serve as a reproducible foundation for moving shopping agents from single-query search toward dependable assistance over long horizons.
- Abstract(参考訳): LLMベースのショッピングエージェントが本番環境に入ると、既存のベンチマークでは、購入者の要求がどのように到着するかをキャプチャできない。
完全な意図を事前に公開し、最終選択のみを格付けするベンチマークは、この長期的課題を提起することも、エージェントが見逃した要件を説明することもできない。
このギャップに対処するため、EComAgentBenchを紹介します。
エージェントは隠された意図を明らかにし、属性に対する候補を確認し、エビデンスをレビューし、100のツールコール内で1つの製品にコミットする必要があります。
さらに、タイプされたソースタグ付きルーブリックは、各タスクをグレードし、各障害を要件とそのソースに原因付ける。
ビルドは自動化されているが信頼性が高く、すべての回答がコードで固定され、テキストが生成され、すべてのサンプルが検証される。
7つのモデルについて評価したところ、最強のモデルでも57.1%の精度しか得られず、可視から隠れたソースへのゴムの満足度は低下していることがわかった。
全体として、EComAgentBenchは、ショッピングエージェントを単一のクエリー検索から長期にわたる信頼できる支援に移行するための再現可能な基盤として機能すると考えています。
関連論文リスト
- Ambig-DS: A Benchmark for Task-Framing Ambiguity in Data-Science Agents [2.3488056916440856]
既存のベンチマークでは、エージェントがタスクが不明確かどうかを無視して、パイプラインが動作しているかどうかをスコア付けしている。
本稿では,予測対象曖昧さと評価対象曖昧さの2つの診断スイートであるAmbig-DSを紹介する。
すべてのタスクに対して、元の完全に指定されたバージョンと、コントロールされた編集によって生成されるあいまいなバリエーションをペアにします。
論文 参考訳(メタデータ) (2026-05-10T18:34:12Z) - CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend [2.9612444540570113]
診断フレーミングにおけるブラウザ可視性障害証拠とバックエンド可観測性を組み合わせた最初のベンチマークであるCUJBenchを提案する。
このベンチマークでは、全体的な精度は19.7%、天井は52%、飽和度よりかなり低い。
論文 参考訳(メタデータ) (2026-04-25T22:10:53Z) - AgentSearchBench: A Benchmark for AI Agent Search in the Wild [21.739444037726418]
本稿では,エージェント検索のための大規模ベンチマークであるAgentSearchBenchを紹介する。
このベンチマークは、エージェント検索を検索として形式化し、実行可能タスククエリと高レベルタスク記述の両方で問題を再分類する。
実行認識型探索を含む軽量な行動信号は、ランキング品質を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2026-04-24T10:53:54Z) - Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents [4.301199871195023]
大規模言語モデル(LLM)エージェントは、ソフトウェア工学のようなオープンなドメインにますますデプロイされています。
我々は, SWE-bench Verified の未特定変種に対する LLM エージェントの解明と探索能力を評価する。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
論文 参考訳(メタデータ) (2026-03-27T09:56:26Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions [68.81939215223818]
ProductAgentは,戦略的明確化質問生成機能と動的製品検索機能を備えた対話情報探索エージェントである。
我々は,製品特徴の要約,クエリ生成,製品検索のための戦略を持ったエージェントを開発する。
実験の結果,ProductAgentはユーザとポジティブに対話し,対話のターンの増加に伴う検索性能の向上を図っている。
論文 参考訳(メタデータ) (2024-07-01T03:50:23Z) - InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks [84.7788065721689]
本稿では,データ解析タスクにおけるLSMに基づくエージェントの評価に特化して設計された最初のベンチマークであるInfiAgent-DABenchを紹介する。
このベンチマークには52のCSVファイルから得られた257のデータ分析質問からなるデータセットであるDAEvalが含まれている。
エージェントフレームワーク上に構築し,DABench 上で GPT-3.5 を3.9% 上回る特殊エージェント DAAgent を開発した。
論文 参考訳(メタデータ) (2024-01-10T19:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。