Fugu-MT 論文翻訳(概要): ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

論文の概要: ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments

arxiv url: http://arxiv.org/abs/2606.20235v1
Date: Thu, 18 Jun 2026 13:47:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-19 18:23:39.888088
Title: ScholarQuest: A Taxonomy-Guided Benchmark for Agentic Academic Paper Search in Open Literature Environments
Title（参考訳）: ScholarQuest: オープン文学環境におけるエージェント学術論文検索のための分類ガイド付きベンチマーク
Authors: Tingyue Pan, Mingyue Cheng, Daoyu Wang, Yitong Zhou, Jie Ouyang, Qi Liu, Enhong Chen,
Abstract要約: エージェント学術論文検索のための大規模分類指導型ベンチマークであるScholarQuestを提案する。 1000以上のコンピュータサイエンストピックと、メソッド指向、セッティングアンコール、比較ベース、スコープ制御クエリを含む4つの代表的な研究意図から構築されている。ベンチマークの結果,エージェント手法は単発検索ベースラインよりも優れているが,最も優れたエージェントは0.314 Recall@100と0.355 Recall@Allのみであり,改善の余地は十分にある。
参考スコア（独自算出の注目度）: 44.35044790171568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Academic paper search is a core step in scientific research, and LLM-based search agents are emerging as a promising paradigm for iterative, intent-driven literature exploration. However, existing benchmarks are insufficient for systematically evaluating agentic academic search under realistic open literature environments. We propose ScholarQuest, a large-scale, taxonomy-guided benchmark for agentic academic paper search. ScholarQuest is constructed from over 1,000 computer science topics and four representative research intents, including method-oriented, setting-anchored, comparison-based, and scope-controlled queries. It further provides scalable answer construction and a shared retrieval backend ScholarBase for reproducible evaluation. Benchmarking results show that agentic methods outperform single-shot retrieval baselines, yet the best-performing agent only achieves 0.314 Recall@100 and 0.355 Recall@All, indicating substantial room for improvement. In addition, analyses of search efficiency, intent-level robustness, and failure cases further highlight the benchmark's ability to provide multi-dimensional evaluation signals for academic paper search agents.
Abstract（参考訳）: 学術論文検索は科学研究における中核的なステップであり、LCMをベースとした検索エージェントは、反復的で意図的な文献探索のための有望なパラダイムとして現れつつある。しかし、既存のベンチマークは、現実的なオープン文学環境下でのエージェント的学術検索を体系的に評価するには不十分である。エージェント学術論文検索のための大規模分類指導型ベンチマークであるScholarQuestを提案する。 ScholarQuestは、1000以上のコンピュータサイエンストピックと、メソッド指向、セッティングアンコール、比較ベース、スコープ制御クエリを含む4つの代表的な研究意図から構築されている。さらに、再現可能な評価のためにスケーラブルな回答構築と共有検索バックエンドのScholarBaseを提供する。ベンチマークの結果、エージェントメソッドはシングルショット検索ベースラインよりも優れていますが、最高のパフォーマンスのエージェントは0.314 Recall@100と0.355 Recall@Allしか達成できません。さらに、探索効率、意図レベルの堅牢性、障害事例の分析は、学術論文検索エージェントに多次元評価信号を提供するベンチマークの能力をさらに強調する。

関連論文リスト

AutoResearchBench: Benchmarking AI Agents on Complex Scientific Literature Discovery [55.70879973230979]
AutoResearchBenchは、自律的な科学文献発見のためのベンチマークである。エージェントWebブラウジングに関する以前のベンチマークと比較すると、AutoResearchBenchは研究指向である。最も強力なLCMでさえ、BrowseCompのような一般的なエージェントによるWebブラウジングベンチマークをほとんど征服したにもかかわらず、Deep Researchでは9.39%、Wide Researchでは9.31%の精度しか達成していない。
論文参考訳（メタデータ） (2026-04-28T06:05:17Z)
SAGE: Benchmarking and Improving Retrieval for Deep Research Agents [60.53966065867568]
SAGEは4つの科学領域にわたる1200のクエリからなる科学文献検索のためのベンチマークであり、20万の論文検索コーパスを備える。 6つのディープ・リサーチ・エージェントを評価し,全てのシステムが推論集約的な検索に苦しむことを発見した。 BM25は、既存のエージェントがキーワード指向のサブクエリを生成するため、LLMベースのレトリバーを約30%上回っている。
論文参考訳（メタデータ） (2026-02-05T18:25:24Z)
SmartSearch: Process Reward-Guided Query Refinement for Search Agents [63.46067892354375]
大言語モデル(LLM)に基づく検索エージェントは、知識集約的な問題に対処するために有望であることが証明されている。既存の研究は主に、検索エージェントの推論パラダイムの最適化に重点を置いているが、推論中の中間的な検索クエリの品質は見過ごされ続けている。この問題を緩和する2つの主要なメカニズムの上に構築されたフレームワークであるSmartSearchを紹介します。
論文参考訳（メタデータ） (2026-01-08T12:39:05Z)
OpenNovelty: An LLM-powered Agentic System for Verifiable Scholarly Novelty Assessment [63.662126457336534]
OpenNoveltyは、透明で証拠に基づく新規性分析のためのエージェントシステムである。回収された実論文のすべての評価を根拠にし、検証可能な判断を確実にする。 OpenNoveltyは、公正で一貫性があり、エビデンスに支えられたピアレビューを促進するスケーラブルなツールで、研究コミュニティに力を与えることを目指している。
論文参考訳（メタデータ） (2026-01-04T15:48:51Z)
DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents [30.768405850755602]
DeepResearch Benchは100のPhDレベルの研究タスクからなるベンチマークである。ディープリサーチエージェントの評価は本質的に複雑で、労働集約的である。本稿では,人間の判断に強く適合する2つの新しい手法を提案する。
論文参考訳（メタデータ） (2025-06-13T13:17:32Z)
ScholarSearch: Benchmarking Scholar Searching Ability of LLMs [5.562566989891248]
本研究では,学術研究におけるLarge Language Models (LLM) の複雑な情報検索能力を評価するために設計された最初のデータセットであるScholarSearchを提案する。学術的実践性(Academic Practicality) – 質問内容は実際の学習環境と研究環境を密接に反映する。我々は、複雑な学術情報検索タスクにおけるLCMの性能向上をより正確に測定し、促進することを期待する。
論文参考訳（メタデータ） (2025-06-11T02:05:23Z)
ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。 ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文参考訳（メタデータ） (2024-06-13T03:26:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。