論文の概要: DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks
- arxiv url: http://arxiv.org/abs/2606.12871v1
- Date: Thu, 11 Jun 2026 03:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.571185
- Title: DailyReport: An Open-ended Benchmark for Evaluating Search Agents on Daily Search Tasks
- Title(参考訳): DailyReport: 検索エージェントを日々の検索タスクで評価するためのオープンなベンチマーク
- Authors: Jingxuan Han, Wei Liu, Mingyang Zhu, Youpeng Wang, Ziwen Wang, Lin Qiu, Xuezhi Cao, Xunliang Cai, Zheren Fu, Licheng Zhang, Zhendong Mao,
- Abstract要約: DailyReportは、検索エージェントを日々の検索タスクで評価するための、オープンなベンチマークである。
150のオープンエンドタスクと3,546の関連するルーリックを含んでいる。
ユーザの好みのスコアとともに,各次元の高度に解釈可能なスコアを導出する。
- 参考スコア(独自算出の注目度): 48.104380189276334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search Agents (SAs) typically leverage large language models (LLMs) to support complex information-seeking tasks by autonomously exploring web sources and synthesizing information into comprehensive responses. For SAs evaluation, prior benchmarks mainly focus on specialized tasks that are unlikely to arise in real-world user scenarios. Moreover, their reliance on coarse task-level rubrics often limits evaluation interpretability. To bridge this gap, we introduce DailyReport, an open-ended benchmark to evaluate SA capabilities on daily search tasks. It contains 150 open-ended tasks with 3,546 associated rubrics, capturing widely discussed and timely information demands of real-world users. Each task is decomposed into subtasks and evaluated with cascade rubrics across disentangled dimensions. Through cascade performance attribution and user-centric aggregation, we derive highly interpretable scores for each dimension, along with a user preference score. Our results on 17 agentic systems show that current systems still fall short of users' expectations. To facilitate future research, our dataset and code are made publicly available at https://github.com/AGI-Eval-Official/DailyReport.
- Abstract(参考訳): 検索エージェント(SA)は、通常、大規模な言語モデル(LLM)を利用して、Webソースを自律的に探索し、情報を包括的な応答に合成することで、複雑な情報検索タスクをサポートする。
SAsの評価では、以前のベンチマークは主に、現実世界のユーザシナリオで起こりそうもない特別なタスクに焦点を当てています。
さらに、粗いタスクレベルのルーブリックへの依存は、しばしば評価の解釈可能性を制限する。
このギャップを埋めるために、デイリー検索タスクでSA機能を評価するためのオープンなベンチマークであるDailyReportを紹介します。
150のオープンエンドタスクと3,546のルーブリックが含まれており、現実世界のユーザの広く議論されたタイムリーな情報要求を捉えている。
各タスクはサブタスクに分解され、アンタングル次元を越えてカスケードルーブリックで評価される。
カスケード性能アトリビューションとユーザ中心アグリゲーションにより,各次元に対して高い解釈可能なスコアとユーザの嗜好スコアを導出する。
エージェントシステム17件の結果から,現在のシステムはまだユーザの期待に届かなかったことが分かる。
将来の研究を促進するため、我々のデータセットとコードはhttps://github.com/AGI-Eval-Official/DailyReportで公開されています。
関連論文リスト
- AIDABench: AI Data Analytics Benchmark [62.45908988324612]
AIDABenchは、複雑なデータ分析タスクのAIシステムをエンドツーエンドで評価するためのベンチマークである。
AIDABenchは、質問応答、データビジュアライゼーション、ファイル生成という3つのコア機能ディメンションにまたがる600以上の多様なドキュメント分析タスクを含んでいる。
AIDABenchの11の最先端モデルを評価し、プロプライエタリ(Claude Sonnet 4.5、Gemini 3 Pro Previewなど)とオープンソース(Qwen3-Max-2026-01-23-Thinkingなど)の両方を対象とする。
論文 参考訳(メタデータ) (2026-02-27T08:58:05Z) - GISA: A Benchmark for General Information-Seeking Assistant [102.30831921333755]
GISAは汎用情報検索アシスタントのベンチマークであり、373の人為的なクエリで構成されている。
深い推論と広範囲な情報集約を統合タスクに統合し、暗記に抵抗するために定期的に更新された回答を含むライブサブセットを含む。
主要なLCMと商用検索製品の実験では、最高のパフォーマンスモデルでさえ19.30%の正確なマッチスコアしか達成していないことが示されている。
論文 参考訳(メタデータ) (2026-02-09T11:44:15Z) - Rules, Resources, and Restrictions: A Taxonomy of Task-Based Information Request Intents [0.6946929968559497]
クエリインテントに対するタスクベースの視点の強化を議論する。
本稿では,従来のクエリ指向アプローチと,AIによるタスク指向検索の新たな需要とのギャップを埋める,タスクベースの情報要求意図の分類法を提案する。
論文 参考訳(メタデータ) (2026-01-19T11:59:23Z) - Compliance Brain Assistant: Conversational Agentic AI for Assisting Compliance Tasks in Enterprise Environments [2.8724171056550256]
Compliance Brain Assistant (CBA) は、企業環境における人員の日々のコンプライアンスタスクの効率を高めるために設計された、対話型のエージェントAIアシスタントである。
応答品質とレイテンシのバランスを良くするために,FastTrackモードとFullAgenticモードをインテリジェントに選択できるユーザクエリルータを設計する。
論文 参考訳(メタデータ) (2025-07-23T07:51:10Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。