論文の概要: Customer-Agent: Overcoming Context Limitations in Ultra-Long Shopping Trajectories via Tool-Augmented Agents and RLVR
- arxiv url: http://arxiv.org/abs/2606.07995v1
- Date: Sat, 06 Jun 2026 06:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.605543
- Title: Customer-Agent: Overcoming Context Limitations in Ultra-Long Shopping Trajectories via Tool-Augmented Agents and RLVR
- Title(参考訳): 顧客エージェント:ツール強化エージェントとRLVRによる超ロングショッピングトラジェクトリにおけるコンテキスト制限の克服
- Authors: Hongye Liu, Rongmei Lin, Anurag Kashyap, Hejie Cui, Ricardo Henao, Besnik Fetahu, Bing Yin,
- Abstract要約: ShopTrajQAは、現実世界の製品情報とシミュレートされたショッピングトラジェクトリから構築された長期コンテキスト評価ベンチマークである。
本フレームワークはShopTrajQAに対して高い性能を示し,他の複雑な推論タスクへの一般化を示す。
- 参考スコア(独自算出の注目度): 35.58360539504091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding customer shopping trajectories is essential for enabling personalized shopping experiences. However, shopping records (i.e., customer's search, clicks, purchases, etc.) often span long time horizons over multiple years, resulting in extremely long trajectories that pose significant challenges for existing large language models (LLMs). Despite the importance of this problem, existing benchmarks are limited to short customer trajectories, while real-world trajectories from large e-commerce platforms are rarely accessible due to data privacy constraints. To address this gap, we introduce ShopTrajQA, a long-context evaluation benchmark constructed from real-world product information and simulated shopping trajectories. The dataset includes variants of up to 32k and 64k tokens, enabling systematic evaluation of model robustness under varying context lengths. Through comprehensive benchmarking of frontier LLMs, we identify critical performance gaps in reasoning over long shopping trajectory data. To address these challenges, we propose a Customer Agent Framework for ultra-long context management. Leveraging a Reinforcement Learning with Verifiable Rewards (RLVR) agentic training paradigm, our approach stores trajectories as external local files and trains the agent to autonomously retrieve and parse them through code-interpreter interactions (e.g., SQL queries), effectively bypassing the fixed in-context window constraints of LLMs. Experimental results demonstrate that our framework achieves strong performance for ShopTrajQA and shows generalization to other complex reasoning tasks.
- Abstract(参考訳): パーソナライズされたショッピング体験を実現するためには、顧客のショッピングトラジェクトリを理解することが不可欠である。
しかし、ショッピング記録(例えば、顧客の検索、クリック、購入など)は、数年にわたって長い時間的水平線にまたがることが多く、結果として、既存の大規模言語モデル(LLM)に重大な課題をもたらす非常に長い軌跡が生じる。
この問題の重要性にもかかわらず、既存のベンチマークは短い顧客トラジェクトリに限定され、大規模なEコマースプラットフォームからの実際のトラジェクトリはデータプライバシの制約によりアクセスできない。
このギャップに対処するため,実際の商品情報から構築した長期コンテキスト評価ベンチマークであるShopTrajQAを導入し,ショッピングトラジェクトリのシミュレーションを行った。
データセットには最大32kトークンと64kトークンの変種が含まれており、コンテキスト長の異なるモデルロバスト性を体系的に評価することができる。
本研究では、フロンティアのLLMの総合的なベンチマークを通じて、長期のショッピングトラジェクトリデータに対する推論における重要なパフォーマンスギャップを同定する。
これらの課題に対処するため,超長期コンテキスト管理のためのCustomer Agent Frameworkを提案する。
RLVR(Reinforcement Learning with Verifiable Rewards)エージェントトレーニングパラダイムを活用することで、トラジェクトリを外部のローカルファイルとして格納し、エージェントにコード-解釈インタラクション(SQLクエリなど)を通じて自律的にそれらを検索・解析するように訓練し、LLMの固定したインコンテキストウィンドウ制約を効果的に回避する。
実験により,本フレームワークはShopTrajQAに対して高い性能を示し,他の複雑な推論タスクへの一般化を示す。
関連論文リスト
- Towards Long-horizon Agentic Multimodal Search [109.0092257657625]
本稿では,LMM-Searcher という,ファイルベースの視覚的表現機構を中心とした新しい多モード深層検索フレームワークを提案する。
エージェントに調整されたフェッチ・イメージ・ツールを装備し、能動的知覚のためのプログレッシブでオンデマンドなビジュアル・ローディング・ストラテジーを実現する。
提案手法は,100ターンの探索地平線へのスケールアップに成功し,オープンソースモデル間の最先端性能を実現した。
論文 参考訳(メタデータ) (2026-04-14T15:40:28Z) - A Scalable Benchmark for Repository-Oriented Long-Horizon Conversational Context Management [15.052977169932054]
大規模言語モデル(LLM)は急速に進歩し、コード理解と生成能力を大幅に強化した。
しかし、過度に長期にわたる会話のコンテキストがモデルに圧倒され、重要な情報が失われ、性能が低下する可能性がある。
LoCoEvalは、リポジトリ指向の開発シナリオに合わせた、最初の長期会話コンテキスト管理ベンチマークです。
論文 参考訳(メタデータ) (2026-03-06T15:09:40Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - ShopSimulator: Evaluating and Exploring RL-Driven LLM Agent for Shopping Assistants [30.950450014358722]
大規模かつ挑戦的な中国のショッピング環境であるShopSimulatorを紹介した。
様々なシナリオにまたがってLCMを評価し、最高の性能のモデルでさえ40%未満の完全成功率を達成することを発見した。
さらなる訓練は、これらの弱点を克服するための実践的なガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-26T07:24:28Z) - CoDA: Agentic Systems for Collaborative Data Visualization [57.270599188947294]
深層研究はデータ分析に革命をもたらしたが、データサイエンティストは依然として手作業による視覚化にかなりの時間を費やしている。
単純なシングルエージェントシステムやマルチエージェントシステムを含む既存のアプローチは、しばしばタスクを単純化する。
本稿では,メタデータ分析,タスク計画,コード生成,自己回帰に特殊なLLMエージェントを利用するマルチエージェントシステムであるCoDAを紹介する。
論文 参考訳(メタデータ) (2025-10-03T17:30:16Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Revolutionizing Retail Analytics: Advancing Inventory and Customer Insight with AI [0.0]
本稿では,最先端機械学習技術を活用した革新的なアプローチを提案する。
我々は、これらの技術を活用して小売効率と顧客エンゲージメントを向上させる、高度なスマート小売分析システム(SRAS)の構築を目指している。
論文 参考訳(メタデータ) (2024-02-24T11:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。