論文の概要: MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors
- arxiv url: http://arxiv.org/abs/2606.17453v2
- Date: Wed, 17 Jun 2026 07:21:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.215199
- Title: MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors
- Title(参考訳): MapSatisfyBench: 行動中心のインシシデント決定因子による満足度対応マップエージェントのベンチマーク
- Authors: Lubin Bai, Mengyu Cao, Sixue Wang, Zhongwei Wan, Yue Pan, Jiale Hou, Xiang Li, Xiuyuan Zhang,
- Abstract要約: マップサービスは、プロフェッショナルなタスク設定ではなく、日々のシナリオに埋め込まれています。
ユーザは多くの場合、自分のニーズを非公式に表現する。
有能なエージェントは、まずこれらの要因を利用可能な情報ソースから積極的に回収する必要がある。
ファクタは、それがユーザの受け入れに影響を与える場合にのみ評価可能であり、応答する前にエージェントが利用可能な情報から復元できる。
- 参考スコア(独自算出の注目度): 18.24708264824734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model agents are increasingly integrated into map services. Since map services are embedded in everyday-life scenarios rather than professional task settings, users often express their needs informally, resulting in underspecified queries with many unspoken needs, namely, implicit decision factors that are critical for user satisfaction. Although clarification is an effective way to mitigate this issue, it increases user burden in daily interaction, and a capable agent should first proactively recover such factors from available information sources. However, evaluating this ability is challenging. The first challenge is to determine which implicit decision factors are suitable for evaluation. A factor is evaluable only if it affects user acceptance and can be recovered from information available to the agent before it responds. Second, user satisfaction cannot be reliably represented by a single reference answer, requiring a benchmark that converts satisfaction-relevant factors into objective and quantifiable evaluation targets. To address these challenges, we propose a restore-identify-filter framework that reconstructs complete user needs from behavior-chain evidence, identifies implicit decision factors, and retains only those supported by pre-query evidence. Building on this methodology, we construct MapSatisfyBench from large-scale, real-world anonymized user data and annotate ground truth from five dimensions and enables full-chain evaluation of satisfaction-aware map agents. Experiments show that current agents generally perform well on explicit task completion, but remain limited in satisfying implicit decision factors and proactively acquiring the evidence needed for satisfaction-aware decisions. These findings establish MapSatisfyBench as a benchmark for shifting map-agent evaluation from task completion toward satisfaction-aware spatial decision making.
- Abstract(参考訳): 大規模言語モデルエージェントはマップサービスに統合されつつある。
マップサービスは、プロのタスク設定よりも日常的なシナリオに埋め込まれているため、ユーザは、しばしば非公式にニーズを表現する。
明確化は、この問題を軽減する効果的な方法であるが、日々のインタラクションにおけるユーザの負担を増大させ、有能なエージェントはまず、利用可能な情報ソースからそのような要因を積極的に回収するべきである。
しかし、この能力を評価することは難しい。
最初の課題は、どの暗黙的な決定要因が評価に適しているかを決定することである。
ファクタは、それがユーザの受け入れに影響を与える場合にのみ評価可能であり、応答する前にエージェントが利用可能な情報から復元できる。
第2に、満足度関連因子を客観的かつ定量的な評価対象に変換するベンチマークを必要とするため、ユーザ満足度を単一の基準回答で確実に表現することはできない。
これらの課題に対処するため,行動連鎖エビデンスから完全なユーザニーズを再構築し,暗黙的な決定要因を識別し,事前問い合わせエビデンスによって支持されるもののみを保持するリストア識別フィルタフレームワークを提案する。
本手法に基づいて,大規模で実世界の匿名化されたユーザデータからMapSatisfyBenchを構築し,5次元から真実を注釈し,満足度を考慮した地図エージェントのフルチェーン評価を可能にする。
実験によると、現在のエージェントは、通常、明示的なタスク完了においてよく機能するが、暗黙的な決定要因を満足させ、満足度に配慮した決定に必要な証拠を積極的に取得することに制限されている。
これらの結果は,MapSatisfyBenchをタスク完了から満足度を考慮した空間的意思決定へマップエージェントの評価をシフトするためのベンチマークとして確立した。
関連論文リスト
- UserHarness: Harnessing User Minds for Stronger Agent Theory-of-Mind [51.47914365631888]
UserHarnessは、明示的なユーザ・ミンドの再構築として、理論・オブ・ミンド(ToM)の推論を再設計するシンプルなフレームワークである。
ユーザーの精神状態、外部環境との関係、およびそれに続く行為を分解し、エージェントがユーザーの観察、信念、意図、行動を追跡することを可能にする。
論文 参考訳(メタデータ) (2026-05-26T21:45:45Z) - VitaBench 2.0: Evaluating Personalized and Proactive Agents in Long-Term User Interactions [63.13827503828231]
我々は、長期ユーザーインタラクションにおけるパーソナライズされたプロアクティブなエージェント動作を評価するためのベンチマークであるVitaBench 2.0を紹介する。
結果は、最先端のモデルでさえ、現実世界のパーソナライゼーションは非常に困難であることを示している。
論文 参考訳(メタデータ) (2026-05-26T15:07:38Z) - PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures [13.33442214432416]
PQRは、特定の目的に対してエージェントの障害をサーフェスするフレームワークである。
電子商取引のQAエージェントの応答検出におけるPQRの評価を行った。
論文 参考訳(メタデータ) (2026-05-15T18:50:43Z) - LATTICE: Evaluating Decision Support Utility of Crypto Agents [23.32869315594442]
LATTICEは、現実的なユーザ向けシナリオにおいて、暗号エージェントの決定サポートユーティリティを評価するためのベンチマークである。
実験の結果,テスト対象のコピロは,ほぼ同等のアグリゲーションスコアが得られたが,ディメンションレベルやタスクレベルのパフォーマンスは明らかに異なることがわかった。
論文 参考訳(メタデータ) (2026-04-29T02:32:14Z) - Predicting Satisfaction of Counterfactual Explanations from Human Ratings of Explanatory Qualities [0.873811641236639]
我々は,206人の被験者によって評価された反事実的説明のデータセットを分析した。
ユーザ満足度の最強予測要因として、実現可能性と信頼が際立っていることが分かりました。
他のメトリクスでは、分散の58%を説明し、追加の説明的品質の重要性を強調している。
論文 参考訳(メタデータ) (2025-04-07T11:09:25Z) - Feature Responsiveness Scores: Model-Agnostic Explanations for Recourse [7.730963708373791]
消費者保護規則では、企業は意思決定対象に予測を説明する必要がある。
これらのプラクティスが、改善に繋がらない機能を強調して、消費者を弱める方法を示します。
応答性スコアに基づいて特徴を強調することにより,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2024-10-29T23:37:49Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - CAUSE: Counterfactual Assessment of User Satisfaction Estimation in Task-Oriented Dialogue Systems [60.27663010453209]
我々は,大規模言語モデル(LLM)を利用して,満足度を考慮した対実対話を生成する。
生成されたサンプルの信頼性を確保するために、人間のアノテーションを収集します。
この結果から,TODシステムにおけるユーザ満足度推定のためのデータ拡張手法の必要性が明らかになった。
論文 参考訳(メタデータ) (2024-03-27T23:45:31Z) - Diagnosis, Feedback, Adaptation: A Human-in-the-Loop Framework for
Test-Time Policy Adaptation [20.266695694005943]
ポリシーは新しい環境にポリシーがデプロイされたときに発生する状態と報酬の変化によって、しばしば失敗する。
データ拡張は、エージェントの観察におけるタスク非関連の変化にモデルを不変にすることで、ロバスト性を高めることができる。
本稿では,ユーザからのフィードバックを直接活用して,タスク関連概念をパーソナライズする対話型フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-12T17:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。