論文の概要: Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework
- arxiv url: http://arxiv.org/abs/2606.08867v2
- Date: Sat, 13 Jun 2026 05:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.814884
- Title: Building Customer Support AI Agents at 100M-User Scale: An Evaluation-Driven Framework
- Title(参考訳): 顧客サポートAIエージェントを1億ユーザ規模で構築する - 評価駆動フレームワーク
- Authors: Aman Gupta, Kevin Rossell, Edesio Alcobaça, Jose Chrystian Lima Pacheco, Carolina Baptista de Lima, Shao Tang, Luiz Paulo Rabachini, Luis Moneda, Herbert Fei, Daniel Silva, Rohan Ramanath,
- Abstract要約: 我々は,NubankのカスタマーサポートAIエージェントに対して,オフライン開発とオンライン影響を橋渡しする統合フレームワークを提案する。
中心的な洞察は、評価パイプラインの品質がイテレーションのベロシティを直接決定することです。
ほとんどのユースケースでは、AIの満足度は専門家の人間エージェントの数パーセント以内に達します。
- 参考スコア(独自算出の注目度): 2.29541210878158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid rise in LLM capabilities has made AI agents increasingly viable across a broad range of tasks. Among the most promising applications is building production-ready customer-facing agents, a challenge that demands coordinated excellence in evaluation methodology, context engineering, training, and online measurement. Yet these critical pillars are typically developed in isolation, creating blind spots that only surface after deployment. In this paper, we present a unified framework that bridges offline development with online impact for customer support AI agents at Nubank, a company with 100M+ users. Our approach integrates several key components: (1) structured context engineering tailored to customer support agents, (2) systematic human-in-the-loop prompt iteration, (3) rigorous LLM judge evaluation with measured inter-rater agreement and GEPA optimization for consistency, and (4) ideation-to-production validation. A central insight is that evaluation-pipeline quality directly determines iteration velocity. We present results from five production deployments spanning distinct domains: card delivery, debt management, credit-limit support, card management, and product explanation. These deployments deliver consistent customer-satisfaction gains while substantially accelerating iteration. In our card-delivery deployment, large-scale A/B testing yields a 37 percentage-point improvement in AI transactional Net Promoter Score and a 29 percentage-point gain in self-service rate over prior agent variants, alongside a strong correlation between offline simulation metrics and online outcomes, demonstrating that eval-driven development reliably predicts production impact. On most use cases, AI satisfaction reaches within a few percentage points of expert human agents.
- Abstract(参考訳): LLM能力の急速な向上により、AIエージェントは幅広いタスクでますます有効になっている。
もっとも有望な応用としては、製品対応の顧客エージェントの構築、評価方法論のコーディネートな卓越性、コンテキストエンジニアリング、トレーニング、オンライン測定などが挙げられる。
しかし、これらの重要な柱は通常独立して開発され、デプロイ後にのみ現れる盲点を生み出します。
本稿では,1億人以上のユーザを抱えるNubankにおいて,顧客支援AIエージェントに対するオンライン影響でオフライン開発を橋渡しする統合フレームワークを提案する。
提案手法は,(1)カスタマーサポートエージェントに適した構造化コンテキスト工学,(2)系統的ヒューマン・イン・ザ・ループ・プロンプト・イテレーション,(3)レータ間合意による厳密なLCM判定,(4)計画の整合性のためのEPA最適化,(4)計画の検証など,いくつかの重要な要素を統合している。
中心的な洞察は、評価パイプラインの品質がイテレーションのベロシティを直接決定することです。
我々は、カード配信、債務管理、クレジット・リミット・サポート、カード管理、製品説明の5つの異なる領域にまたがる製品展開の結果を提示する。
これらのデプロイメントは、一貫した顧客満足度を高めながら、イテレーションを大幅に加速します。
当社のカード配信デプロイメントでは、大規模なA/Bテストは、AIトランザクショナルネットプロモーターScoreの37パーセント改善と、前エージェントの変種よりも29パーセントのセルフサービス率向上をもたらし、オフラインシミュレーションメトリクスとオンライン成果の相関が強く、eval駆動開発がプロダクションへの影響を確実に予測していることを示しています。
ほとんどのユースケースでは、AIの満足度は専門家の人間エージェントの数パーセント以内に達します。
関連論文リスト
- LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Continuous Benchmark Generation for Evaluating Enterprise-scale LLM Agents [23.277131100190086]
本稿では,要求の変化に応じてベンチマークを進化させ,進化するAIエージェントの堅牢な評価を行うベンチマーク生成プロセスを提案する。
このアプローチは、開発者が高レベルのインテントを表現し、最先端のLCMを使用して、ごく少数の文書からベンチマークを生成する半構造化ドキュメントに依存している。
論文 参考訳(メタデータ) (2025-11-13T07:48:22Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - How can we assess human-agent interactions? Case studies in software agent design [52.953425368394306]
我々は,人間とエージェントの相互作用の厳密な評価に向けて,二つの大きな一歩を踏み出した。
エージェント設計のより効率的な人間中心評価のためのフレームワークであるPULSEを提案する。
私たちは、オープンソースのソフトウェアエージェントOpenHandsを中心に構築された大規模なWebプラットフォームにフレームワークをデプロイします。
論文 参考訳(メタデータ) (2025-10-10T19:04:28Z) - The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文 参考訳(メタデータ) (2025-06-04T14:37:54Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。