論文の概要: VISTA: A Versatile Interactive User Simulation Toolkit for Agent Evaluation
- arxiv url: http://arxiv.org/abs/2606.11079v1
- Date: Tue, 09 Jun 2026 16:39:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.618263
- Title: VISTA: A Versatile Interactive User Simulation Toolkit for Agent Evaluation
- Title(参考訳): VISTA: エージェント評価のための対話型ユーザシミュレーションツールキット
- Authors: Yunan Lu, Ryan Shea, Yusen Zhang, Zhou Yu,
- Abstract要約: 既存の評価手法はしばしば静的なベンチマークに依存しており、エージェントの振る舞いの動的で多段階の性質を捉えていない。
エージェント評価のための対話型ユーザシミュレーションツールキットVISTAを提案する。
我々のツールキットは、シミュレーションされた相互作用のリアリズム、能力カバレッジ、相互作用の有効性を測定するための6つのメトリクスからなる。
- 参考スコア(独自算出の注目度): 16.74971373243012
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation remains a critical bottleneck for interactive agent development. Existing evaluation methods often rely on static benchmarks, which fail to capture the dynamic, multi-step nature of agentic behavior and struggle to expose meaningful failure modes. While user-simulation-based evaluation offers a promising alternative, existing simulation frameworks suffer from two major limitations. First, they provide limited mechanisms for evaluating the quality and comprehensiveness of simulated interactions, making it difficult to assess whether a simulator sufficiently explores an agent's capabilities and failure modes. Second, most frameworks are restricted to either UI-only actions or API-only actions, limiting their ability to model the full range of realistic user behaviors. To address these limitations, we propose VISTA, a Versatile Interactive user Simulation Toolkit for Agent evaluation. Our toolkit includes a suite of six metrics for measuring the realism, capability coverage, and interaction effectiveness of simulated interactions. In addition, we develop a hybrid user simulator that integrates both UI-based interactions and API-based interactions, enabling more realistic and comprehensive evaluation across diverse interactive environments. We evaluate VISTA in e-commerce shopping and education customer service settings and demonstrate that it produces more realistic and comprehensive evaluations than existing methods.
- Abstract(参考訳): 対話型エージェント開発において評価は依然として重要なボトルネックである。
既存の評価手法は、しばしば静的なベンチマークに依存し、エージェントの動作の動的で多段階の性質を捉えず、意味のある障害モードを明らかにするのに苦労する。
ユーザシミュレーションに基づく評価は有望な代替手段であるが、既存のシミュレーションフレームワークには2つの大きな制限がある。
まず、シミュレーションされた相互作用の品質と包括性を評価するための制限されたメカニズムを提供し、シミュレータがエージェントの能力と障害モードを十分に探索するかどうかを評価することは困難である。
第二に、ほとんどのフレームワークはUIのみのアクションかAPIのみのアクションに制限されており、現実的なユーザの振る舞いをモデル化する能力が制限されている。
エージェント評価のための対話型ユーザシミュレーションツールキットであるVISTAを提案する。
我々のツールキットは、シミュレーションされた相互作用のリアリズム、能力カバレッジ、相互作用の有効性を測定するための6つのメトリクスからなる。
さらに、UIベースのインタラクションとAPIベースのインタラクションを統合したハイブリッドユーザシミュレータを開発し、多様な対話環境におけるより現実的で包括的な評価を可能にする。
我々は,電子商取引における顧客サービス設定におけるVISTAを評価し,既存の方法よりも現実的で包括的な評価を行うことを示す。
関連論文リスト
- EgoBench: An Interactive Egocentric Multimodal Benchmark for Tool-Using Agents [17.727481701114556]
ツール使用エージェントのための対話型マルチモーダルベンチマークであるEgoBenchを紹介する。
我々は3段階の相乗的パイプラインを実装し、各タスクは視覚知覚とツール強化マルチホップ推論の併用を強制的に行うように設計されている。
また,エージェントのインタラクション能力を評価するために,EgoBench内のマルチエージェントシミュレーションユーザを開発した。
論文 参考訳(メタデータ) (2026-05-27T01:28:15Z) - VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions [63.13827503828231]
我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。
結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
論文 参考訳(メタデータ) (2026-05-26T15:07:38Z) - Proactive Agent Research Environment: Simulating Active Users to Evaluate Proactive Assistants [85.1155076383488]
Pareは、デジタル環境におけるプロアクティブエージェントの構築と評価のためのフレームワークである。
Pare-Benchは、コミュニケーション、生産性、スケジューリング、ライフスタイルアプリにまたがる143のタスクのベンチマークである。
論文 参考訳(メタデータ) (2026-04-01T12:53:01Z) - SAGE: A Top-Down Bottom-Up Knowledge-Grounded User Simulator for Multi-turn AGent Evaluation [17.11268616243772]
マルチターンアジェント評価のための新しいユーザシミュレーションフレームワークであるSAGEを提案する。
SAGEには、理想的な顧客プロファイルのようなビジネスロジックに根ざしたトップダウンの知識が組み込まれています。
このアプローチはより現実的で多様なインタラクションを生み出し、最大で33%のエージェントエラーを識別する。
論文 参考訳(メタデータ) (2025-10-13T22:52:17Z) - Non-Collaborative User Simulators for Tool Agents [12.294827535425414]
本研究では,非協調行動の4つのカテゴリをシミュレートする新しいユーザシミュレータアーキテクチャを提案する。
我々のMultiWOZと$tau$-benchの実験は、非コラボレーションユーザと出会う際に、最先端のツールエージェントの性能が著しく低下していることを明らかにした。
論文 参考訳(メタデータ) (2025-09-27T05:06:17Z) - You Don't Know Until You Click:Automated GUI Testing for Production-Ready Software Evaluation [24.956175875766952]
RealDevWorldは、大規模言語モデル(LLM)とソフトウェア開発におけるコードエージェントの評価フレームワークである。
主なコンポーネントは、194のオープンエンドソフトウェアエンジニアリングタスクのコレクションであるRealDevBenchと、新しいエージェント・アズ・ア・ジャッジ評価システムであるAppEvalPilotだ。
実証的な結果は、RealDevWorldが効果的で、自動で、そして、人間に沿った評価を提供することを示している。
論文 参考訳(メタデータ) (2025-08-17T07:31:11Z) - MetAdv: A Unified and Interactive Adversarial Testing Platform for Autonomous Driving [85.04826012938642]
MetAdvは、現実的でダイナミックでインタラクティブな評価を可能にする、新しい対向テストプラットフォームである。
フレキシブルな3D車両モデリングと、シミュレートされた環境と物理的環境のシームレスな遷移をサポートする。
生理的信号のリアルタイムキャプチャとドライバからの行動フィードバックを可能にする。
論文 参考訳(メタデータ) (2025-08-04T03:07:54Z) - User Behavior Simulation with Large Language Model based Agents [116.74368915420065]
LLMベースのエージェントフレームワークを提案し,実際のユーザ動作をシミュレートするサンドボックス環境を設計する。
実験結果から,本手法のシミュレーション行動は実人の行動に非常に近いことが判明した。
論文 参考訳(メタデータ) (2023-06-05T02:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。