論文の概要: Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants
- arxiv url: http://arxiv.org/abs/2606.12608v1
- Date: Wed, 10 Jun 2026 19:04:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.420557
- Title: Shopping Reasoning Bench: An Expert-Authored Benchmark for Multi-Turn Conversational Shopping Assistants
- Title(参考訳): Shopping Reasoning Bench: マルチTurn会話型ショッピングアシスタントのエキスパート認証ベンチマーク
- Authors: Shuxian Fan, Seonwoo Min, Youna Hu, Botao Xia, Jayakrishnan Unnikrishnan, Rowan Musselmann, Yifan Gao, Qingyu Yin, Priyanka Nigam, Bing Yin,
- Abstract要約: 既存のベンチマークでは、実際のショッピング会話が要求するオープンエンドのマルチターン推論、ドメインの専門知識、基準レベルの品質を共同評価していない。
Shopping Reasoning Benchは、525のミッション(232のシングルターン、293のマルチターン)のエキスパートによるベンチマークで、小売ドメインの専門家が作成した10863の重み付きバイナリルーブリックを紹介します。
- 参考スコア(独自算出の注目度): 24.455456910655254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Conversational shopping assistants now serve hundreds of millions of customers, yet no existing benchmark jointly evaluates the open-ended multi-turn reasoning, domain expertise, and criterion-level quality that real shopping conversations demand. Shopping reasoning is unique among language model applications. Unlike factual question answering or verifiable code generation, it requires balancing subjective preferences, budget constraints, and cross-product trade-offs across multi-turn dialogue, capabilities absent from previous e-commerce and general-purpose benchmarks. We introduce the Shopping Reasoning Bench, an expert-authored benchmark of 525 missions (232 single-turn, 293 multi-turn) with 10863 importance-weighted binary rubrics authored by retail domain experts. These criteria are organized under a taxonomy of five reasoning categories and fifteen subcategories covering diverse demands such as preference refinement, trade-off analysis, and compatibility assessment. An evaluation of nine models across three families (GPT, Claude, Gemini) shows that pass rates reach only 57--77% overall. On multi-turn missions, all models score 13--29 points lower on optional above-and-beyond criteria than on required ones, and performance degrades 4--18 points as conversations progress. These gaps show that current models handle basic shopping assistance but fall short of expert-level advice, making Shopping Reasoning Bench a challenging testbed for future shopping assistant development.
- Abstract(参考訳): 会話型ショッピングアシスタントは現在、数億の顧客にサービスを提供しているが、既存のベンチマークでは、実際のショッピング会話が要求するオープンエンドのマルチターン推論、ドメインの専門知識、基準レベルの品質を共同評価していない。
ショッピング推論は言語モデルアプリケーションに特有のものだ。
現実の質問応答や検証可能なコード生成とは異なり、主観的な選好、予算の制約、多ターン対話における製品間のトレードオフのバランス、以前のeコマースや汎用ベンチマークから欠落する機能などが必要である。
Shopping Reasoning Benchは、525のミッション(232のシングルターン、293のマルチターン)のエキスパートによるベンチマークで、小売ドメインの専門家が作成した10863の重み付きバイナリルーブリックを紹介します。
これらの基準は、選好の洗練、トレードオフ分析、互換性評価などの様々な要求をカバーする5つの推論カテゴリと15のサブカテゴリの分類の下に編成されている。
3つのファミリー(GPT, Claude, Gemini)にまたがる9つのモデルの評価では、パスレートは全体の57~77%に過ぎなかった。
マルチターンミッションでは、すべてのモデルが、必要なものよりもオプション上の基準で13--29ポイント低く、会話が進むにつれてパフォーマンスは4--18ポイント低下する。
これらのギャップは、現在のモデルが基本的なショッピング支援を扱うが、専門家レベルのアドバイスを欠いていることを示している。
関連論文リスト
- SWE-QA: A Dataset and Benchmark for Complex Code Understanding [4.049272375488184]
マルチホップコード理解のベンチマークを目的としたテキストとコードコーパスであるSWE-QAを紹介する。
データセットは、SWE-benchの12のPythonリポジトリから体系的に生成された9,072の多重選択質問からなる。
デンスアーキテクチャは、エキスパートの混合モデルよりも10~14ポイント優れており、推論の強化されたバリエーションは一貫性のない利点を示している。
論文 参考訳(メタデータ) (2026-04-27T12:56:19Z) - \$OneMillion-Bench: How Far are Language Agents from Human Experts? [43.31541643833527]
OneMillion-Benchは、法、財務、産業、ヘルスケア、そして自然科学にまたがる400の専門家によるタスクのベンチマークである。
OneMillion-Benchは、ドメイン集約シナリオにおけるエージェントの信頼性、専門的な深さ、実践的準備性を評価するための統合テストベッドを提供する。
論文 参考訳(メタデータ) (2026-03-09T05:32:42Z) - Sales Research Agent and Sales Research Bench [0.0]
本稿では,Microsoft Dynamics 365セールスにおけるセールスリサーチエージェントについて述べる。
Sales Research Benchは、顧客の重み付けされた8つのディメンションでシステムを評価するベンチマークである。
カスタマイズされたエンタープライズ・スキーマ上での200クエストでは、セールス・リサーチ・エージェントがClaude Sonnet 4.5を13ポイント、ChatGPT-5を24.1ポイント上回った。
論文 参考訳(メタデータ) (2025-12-01T19:44:04Z) - Evaluating Multi-Turn Bargain Skills in LLM-Based Seller Agent [20.0134260493017]
本稿では,eコマース対話における販売業者の交渉能力を評価するためのマルチターン評価フレームワークを提案する。
コントリビューションは,(1)622のカテゴリ,9,892の製品,3,014のタスクにまたがる大規模なeコマースバーゲティングベンチマーク,(2)アノテートされた購入者意図を持つマインド理論に基づくターンレベルの評価フレームワーク,(3)大量の対話データから信頼性の高い意図を抽出する自動パイプラインである。
論文 参考訳(メタデータ) (2025-09-08T05:12:03Z) - R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation [75.33671166231096]
我々は、Reasoning Bench(R-Bench)と呼ばれる、大学院レベルの多学派、英語の中国語ベンチマークを導入する。
RBenchは108の被験者に1,094の質問を、83の被験者に665の質問を、マルチモーダルなモデルテストに当てはめている。
我々は,OpenAI o1,GPT-4o,DeepSeek-R1など,広く使用されているモデルを評価した。
論文 参考訳(メタデータ) (2025-05-04T07:48:36Z) - MT-Bench-101: A Fine-Grained Benchmark for Evaluating Large Language Models in Multi-Turn Dialogues [58.33076950775072]
MT-Bench-101は,マルチターン対話におけるLarge Language Models (LLMs) の細粒度化能力を評価するために設計された。
1388のタスクで4208のターンが1388のマルチターン対話にまたがる3階層の階層的能力分類を構築した。
次に,MT-Bench-101に基づく21のLLMを評価し,能力とタスクの観点から総合的な分析を行った。
論文 参考訳(メタデータ) (2024-02-22T18:21:59Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。