論文の概要: Iterating Toward Better Search: A Two-Agent Simulation Framework for Evaluating Agentic Search Architectures in E-Commerce
- arxiv url: http://arxiv.org/abs/2606.12924v1
- Date: Thu, 11 Jun 2026 05:27:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.603879
- Title: Iterating Toward Better Search: A Two-Agent Simulation Framework for Evaluating Agentic Search Architectures in E-Commerce
- Title(参考訳): より良い検索に向けての反復:Eコマースにおけるエージェント検索アーキテクチャの評価のための2エージェントシミュレーションフレームワーク
- Authors: Jetlir Duraj, Jayanth Yetukuri, Shuang Zhou, Dhruv Varma, Rui Kong, Ishita Khan, Qunzhi Zhou,
- Abstract要約: 本稿では,対話型ショッピングアシスタントアーキテクチャを評価するためのモジュール型2エージェントシミュレーションフレームワークを提案する。
実験間でバイヤー定数を保持することで、同一のシナリオ上での応答設計の制御された比較が可能になる。
ローリングウィンドウメモリは、すべての品質指標において意図抽出メモリより優れ、クエリ毎に35%高速である。
- 参考スコア(独自算出の注目度): 5.346615622025758
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a modular two-agent simulation framework for evaluating conversational shopping assistant architectures. An independent buyer agent, configured with personas, missions, and patience levels, is paired with an interchangeable responder that integrates with a real e-commerce search API. Holding the buyer constant across experiments enables controlled comparison of responder designs on identical scenarios. Using 2011 conversations across 14 persona buckets, we establish four empirical findings. First, rolling-window memory outperforms intent-extraction memory on all quality metrics while being 35% faster per query. Second, illustrating rapid evidence-driven iteration, a systematic failure analysis of a responder version enables targeted fixes that reduce failure and near-failure rates by 62% across the full dataset. Third, swapping the responder LLM backbone from Gemini~2.5 to Llama~3.3~70B costs 0.16--0.45 points despite identical architecture. Finally, we document systematic philosophical disagreement between frontier LLM judges: Gemini rewards process correctness while Claude demands concrete outcomes, despite using the same evaluation prompt.
- Abstract(参考訳): 本稿では,対話型ショッピングアシスタントアーキテクチャを評価するためのモジュール型2エージェントシミュレーションフレームワークを提案する。
ペルソナ、ミッション、忍耐レベルを備えた独立したバイヤーエージェントは、実際のeコマース検索APIと統合された交換可能な応答器と組み合わせられる。
実験間でバイヤー定数を保持することで、同一のシナリオ上での応答設計の制御された比較が可能になる。
2011年,14個のペルソナバケツの会話から4つの実験結果が得られた。
まず、ローリングウィンドウメモリは、クエリ毎に35%高速で、すべての品質メトリクスにおいて、インテント抽出メモリよりも優れています。
第二に、迅速なエビデンス駆動のイテレーションを例証して、レスポンダバージョンのシステマティックな障害分析によって、完全なデータセット全体で障害とほぼ障害率を62%削減するターゲット修正が可能になる。
第3に、応答器のLLMバックボーンをGemini~2.5からLlama~3.3~70Bに交換すると、同じアーキテクチャにもかかわらず0.16-0.45ポイントとなる。
ジェミニはプロセスの正しさに報いるが、クロードは同じ評価プロンプトを用いても具体的な結果を要求する。
関連論文リスト
- EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents [64.96332056338923]
EEVEEは、LLMエージェントのための最初のマルチデータセットテスト時プロンプト学習フレームワークである。
実世界のタスクストリーム下でテスト時のプロンプト学習を可能にする。
EEVEEはQwen3-4B-InstructとDeepSeek-V3.2で平均マルチベンチマークスコアを10.38点、24.32点改善している。
論文 参考訳(メタデータ) (2026-06-09T17:57:16Z) - EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design [0.4499833362998488]
3つの評価次元を持つベンチマークスイートを導入する。
本稿では,LangGraph上に構築されたマルチエージェントシステム(MAS)の実装であるEngiAIを紹介する。
論文 参考訳(メタデータ) (2026-05-19T12:12:09Z) - ARGOS: Who, Where, and When in Agentic Multi-Camera Person Search [49.61286310968402]
我々は,対話型推論問題として,マルチカメラの人物探索を再構成する最初のベンチマークとフレームワークであるARGOSを紹介する。
ARGOSエージェントはあいまいな目撃声明を受け取り、何を尋ねるか、いつ空間的または時間的ツールを呼び出すか、不明瞭な応答をどう解釈するかを判断しなければならない。
このベンチマークは、意味的知覚(Who)、空間的推論(Where)、時間的推論(When)の3つのプログレッシブトラックにおいて、14の現実世界シナリオにまたがる2,691のタスクからなる。
論文 参考訳(メタデータ) (2026-04-14T14:06:19Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Agent4FaceForgery: Multi-Agent LLM Framework for Realistic Face Forgery Detection [108.5042835056188]
この作業では,2つの基本的な問題に対処するため,Agent4FaceForgeryを導入している。
人間の偽造の多様な意図と反復的なプロセスを捉える方法。
ソーシャルメディアの偽造に付随する複雑な、しばしば敵対的な、テキストと画像のインタラクションをモデル化する方法。
論文 参考訳(メタデータ) (2025-09-16T01:05:01Z) - Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving [62.71545696485824]
我々は,異種エージェントフレームワーク間のシームレスな体験共有を可能にするユニバーサルメモリ基盤であるAgent KBを紹介した。
Agent KBはトラジェクトリを構造化知識ベースに集約し、軽量APIを提供する。
我々は,GAIA,Humanity's Last Exam,GPQA,SWE-benchなどの主要フレームワークにまたがるエージェントを検証した。
論文 参考訳(メタデータ) (2025-07-08T17:59:22Z) - Kolb-Based Experiential Learning for Generalist Agents with Human-Level Kaggle Data Science Performance [81.05882480184587]
本稿では,自律エージェントに対するVygotskyのZPDを用いて,Kolbの学習サイクルの計算フレームワークを提案する。
Agent Kは、KolbとVygotskyにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
金9個、銀8個、銅12個で、メダル獲得競争で金4個、銀4個を含む。エージェントKは、コルブとヴィーゴツキーにインスパイアされた人間の認知学習をうまく統合する第1のAIシステムである。
論文 参考訳(メタデータ) (2024-11-05T23:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。