論文の概要: UXBench: Benchmarking User Experience in AI Assistants
- arxiv url: http://arxiv.org/abs/2606.09570v2
- Date: Tue, 09 Jun 2026 13:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.826197
- Title: UXBench: Benchmarking User Experience in AI Assistants
- Title(参考訳): UXBench:AIアシスタントにおけるユーザエクスペリエンスのベンチマーク
- Authors: Mengze Hong, Xia Zeng, Zeyang Lei, Sheng Wang, Chen Jason Zhang, Di Jiang, Taiming Fu, Jinfeng Huang, Mengqiao Liu, Qinghe Chang, Haosheng Zou, Qiongyi Zhou, Sijun He, Simonjmdeng, Haojing Huang, Zijian Li, Lucas Mu Li, Fubao Zhang, Mona Zhou, Wei Ma, Chenxuan Ma, Yuanmeng Zhang, Jian Song, Minlong Peng, Di Liang, Davey Chen,
- Abstract要約: UXBenchはユーザ中心のベンチマークとしては初めての,実際のユーザフィードバック信号に基づくベンチマークです。
データセットは8つのシナリオ、83のドメイン、さまざまな障害パターンを含む、実際のユーザ分布を詳細に反映している。
ユーザフィードバック予測は学習可能な能力であり,Wild のフィードバック信号からトレーニングした報酬モデルにより,精度の高い精度が得られることを示す。
- 参考スコア(独自算出の注目度): 39.65761394260019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As AI assistants serve millions of users daily, evaluating user experience (UX) beyond general model capability has become increasingly important. We present UXBench, the first user-centric benchmark grounded in real user feedback signals for evaluating preference alignment and dialogue generation. The benchmark consists of three interconnected tasks, UX Judge, UX Eval, and UX Recovery, with 7,400 test instances extracted from over 70K interaction logs of a mainstream Chinese AI assistant. The dataset closely reflects real user distributions, covering 8 scenarios, 83 domains, and diverse failure patterns that pose severe challenges. Extensive experiments on 26 frontier language models provide novel insights into how well models perceive user experience and how improvements in model capability contribute to better dialogue engagement. Through comprehensive analysis of model behavior and performance gaps, we show that user feedback prediction is a learnable capability, where a reward model trained from in-the-wild feedback signals can achieve well-calibrated accuracy. We further document the systematic biases of LLM-as-a-judge evaluation protocols and compare typical response strategies that directly affect user experience. UXBench establishes a new evaluation landscape and calls for greater attention to tailored UX optimization, contributing to a user-centric scaling law that shapes the success of AI assistants.
- Abstract(参考訳): AIアシスタントが毎日数百万のユーザに仕えているため、一般的なモデル機能以上のユーザエクスペリエンス(UX)を評価することがますます重要になっている。
UXBenchは、実際のユーザフィードバック信号に基づいて、好みのアライメントと対話生成を評価する最初のユーザ中心のベンチマークである。
このベンチマークは、3つの相互接続されたタスク、UX Judge、UX Eval、UX Recoveryで構成され、メインストリームの中国のAIアシスタントの70K以上のインタラクションログから7,400のテストインスタンスが抽出される。
データセットは8つのシナリオ、83のドメイン、重大な課題を引き起こすさまざまな障害パターンを網羅して、実際のユーザ分布を詳細に反映している。
26のフロンティア言語モデルに関する大規模な実験は、モデルがユーザエクスペリエンスをどのように感じているか、モデル能力の改善がより良い対話性にどのように寄与するか、という新たな洞察を提供する。
モデル動作と性能ギャップの包括的解析により、ユーザフィードバック予測は学習可能な能力であり、その場合、Wildのフィードバック信号からトレーニングされた報酬モデルにより、精度の高い精度が得られることを示す。
さらに、LCM-as-a-judge評価プロトコルの系統的バイアスを文書化し、ユーザエクスペリエンスに直接影響を与える典型的な応答戦略を比較する。
UXBenchは新たな評価環境を確立し、カスタマイズされたUX最適化への注意を喚起し、AIアシスタントの成功を形作るユーザ中心のスケーリング法に寄与する。
関連論文リスト
- From Feelings to Metrics: Understanding and Formalizing How Users Vibe-Test LLMs [48.36707944399574]
バイブテストが実際にどのように機能するかを研究し、その後、体系的な分析を支援するために形式化する。
コーディングベンチマークの実験では、パーソナライズされたプロンプトとユーザ認識評価を組み合わせることで、どのモデルが好まれるかを変更できることがわかった。
論文 参考訳(メタデータ) (2026-04-15T17:57:08Z) - ConvApparel: A Benchmark Dataset and Validation Framework for User Simulators in Conversational Recommenders [48.83868690303791]
このギャップに対処するために設計された、人間とAIの会話の新しいデータセットであるConvApparelを紹介します。
そのユニークなデュアルエージェントデータ収集プロトコル -- "よい" と "悪い" のレコメンデータを使用する -- は、偽物検証を可能にする。
本稿では,統計的アライメント,人間的類似度スコア,および対実的検証を組み合わせた総合的検証フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T23:00:21Z) - OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series [36.88936933010042]
OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
論文 参考訳(メタデータ) (2025-10-24T08:27:58Z) - User Experience Estimation in Human-Robot Interaction Via Multi-Instance Learning of Multimodal Social Signals [2.7138092972120766]
本研究では,マルチモーダルな社会信号を利用したヒューマンロボットインタラクション(HRI)のUX推定手法を提案する。
時間的観測に依存する従来のモデルとは異なり、我々のアプローチは短期と長期の両方の相互作用パターンをキャプチャする。
実験結果から,UX推定において,本手法は第三者による評価よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-31T13:34:15Z) - What Users Value and Critique: Large-Scale Analysis of User Feedback on AI-Powered Mobile Apps [2.352412885878654]
本稿では,AIを活用したモバイルアプリにおけるユーザフィードバックに関する総合的かつ大規模な研究について紹介する。
私たちは、14カテゴリにわたる292のAI駆動アプリのキュレートされたデータセットを活用し、Google Playから894KのAI固有のレビューを取得しています。
私たちのパイプラインは、ひとつの機能による満足度と、同じレビュー内で別の機能に対するフラストレーションの両方を表面化しています。
論文 参考訳(メタデータ) (2025-06-12T14:56:52Z) - Multi-agents based User Values Mining for Recommendation [52.26100802380767]
効率的なユーザ値抽出のためのゼロショットマルチLLM協調フレームワークを提案する。
本研究は,本質的な意味を保ちながら,項目内容のコンデンスにテキスト要約手法を適用した。
幻覚を緩和するために,評価役と監督役の2つの特殊エージェントの役割を導入する。
論文 参考訳(メタデータ) (2025-05-02T04:01:31Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems [0.0]
強化学習(RL)レコメンデータシステムは、現実のシナリオにおけるユーザの好みの性質を変えることなく、流体をキャプチャできない静的データセットに依存することが多い。
LLMベースのシミュレーション環境であるLulsiferを導入し、RLベースのレコメンデータトレーニングのための動的で現実的なユーザフィードバックを生成する。
論文 参考訳(メタデータ) (2024-05-22T05:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。