Fugu-MT 論文翻訳(概要): LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

論文の概要: LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling

arxiv url: http://arxiv.org/abs/2606.12837v2
Date: Wed, 17 Jun 2026 03:34:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-18 13:57:35.096886
Title: LoHoSearch: Benchmarking Long-Horizon Search Agents Beyond the Human Difficulty Ceiling
Title（参考訳）: LoHoSearch:人間不自由なシーリングを超越したロングホライゾン検索エージェントのベンチマーク
Authors: Jiarui Zhao, Rongzhi Zhang, Lingchuan Liu, Hao Yang, Xunliang Cai, Xi Su,
Abstract要約: LoHoSearchは、11ドメインにわたる544の人間認証された質問からなるベンチマークである。 LoHoSearchは、700万以上のWikipediaエンティティをカバーするナレッジグラフ上に構築された、自動パイプラインを通じて構築される。
参考スコア（独自算出の注目度）: 20.230285276797215
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Search agent benchmarks exemplified by BrowseComp have rapidly saturated over the past year, with the strongest models surpassing 90% accuracy. Since these benchmarks are predominantly human-authored, annotators lack a global perspective on entity statistics and cannot systematically maximize search space size and structural complexity. This creates a difficulty ceiling that is hard to break. To address this, we introduce LoHoSearch (Long-Horizon Search Agents), a challenging benchmark comprising 544 human-verified questions across 11 domains. LoHoSearch is constructed via an automated pipeline built upon a knowledge graph covering over 7 million Wikipedia entities, which selects relations with large search spaces and assembles them into structurally complex questions with KG-verified unique answers. Our evaluation demonstrates that even the strongest model achieves only 34.74% accuracy, and existing context management strategies (best +6.8%) yield far smaller gains than on prior benchmarks. LoHoSearch provides a more demanding standard for evaluating long-horizon reasoning and context management in search agents.
Abstract（参考訳）: BrowseCompが実証した検索エージェントベンチマークは、過去1年間で急速に飽和しており、最強のモデルが90%を超える。これらのベンチマークは主に人間によるものであるため、アノテータはエンティティ統計のグローバルな視点を欠いており、検索空間のサイズと構造的複雑さを体系的に最大化することはできない。これにより難易度の高い天井が出来上がり、壊れにくい。この問題に対処するために,11ドメインにわたる544の人間認証質問からなる挑戦的なベンチマークであるLoHoSearch(Long-Horizon Search Agents)を紹介した。 LoHoSearchは、700万以上のWikipediaエンティティをカバーするナレッジグラフ上に構築された自動パイプラインで構築されている。我々の評価は、最強モデルでさえ34.74%の精度しか達成せず、既存の文脈管理戦略(ベスト+6.8%)は以前のベンチマークよりもはるかに少ない利得が得られることを示している。 LoHoSearchは、ロングホライズン推論と検索エージェントのコンテキスト管理を評価するための、より要求の多い標準を提供する。

関連論文リスト

HotelQuEST: Balancing Quality and Efficiency in Agentic Search [6.1626572270420334]
エージェント検索は,大規模言語モデル(LLM)を利用した適応検索システムにおいて,有望なパラダイムとして登場した。ホテルクエスト(HotelQuEST)は、214のホテル検索クエリからなるベンチマークで、単純な事実要求から複雑なクエリまで様々である。 LLMをベースとしたエージェントは,従来のレトリバーよりも精度が高いが,冗長なツールコールや準最適ルーティングによるコストが著しく高いことがわかった。
論文参考訳（メタデータ） (2026-02-27T11:50:57Z)
Search More, Think Less: Rethinking Long-Horizon Agentic Search for Efficiency and Generalization [64.61432234404276]
emphSearch More, Think Less (SMTL) は、効率性と一般化の両方をターゲットとした長期エージェント検索のためのフレームワークである。我々は、教師付き微調整と強化学習を用いてエンドツーエンドエージェントを訓練し、ベンチマーク全体にわたって、強固で頻繁なパフォーマンスを実現する。
論文参考訳（メタデータ） (2026-02-26T06:46:41Z)
HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches [54.65565885083031]
本稿では,階層型RLで学習した階層型エージェントディープ検索フレームワークであるHierSearchを提案する。低レベルにおいては、ローカルなディープサーチエージェントとWebのディープサーチエージェントがトレーニングされ、対応するドメインから証拠を検索する。高レベルでは、プランナーエージェントが低レベルのエージェントをコーディネートし、最終回答を提供する。
論文参考訳（メタデータ） (2025-08-11T15:31:47Z)
WideSearch: Benchmarking Agentic Broad Info-Seeking [26.110175228335894]
大規模コレクションタスクにおいてエージェントの信頼性を評価するために設計された新しいベンチマークであるWideSearchを紹介する。ベンチマークでは、実際のユーザクエリに基づいて、15以上のさまざまなドメインから200の質問を手作業でキュレートする。我々は、シングルエージェント、マルチエージェントフレームワーク、エンドツーエンドの商用システムを含む、10以上の最先端のエージェント検索システムをベンチマークする。
論文参考訳（メタデータ） (2025-08-11T14:03:09Z)
BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文参考訳（メタデータ） (2025-08-08T17:55:11Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
AgentSwift: Efficient LLM Agent Design via Value-guided Hierarchical Search [58.98450205734779]
大規模言語モデル(LLM)エージェントは、多様なドメインにまたがる強力な機能を示している。既存のエージェントサーチ手法には3つの大きな制限がある。これらの課題に対処するための包括的なフレームワークを導入します。
論文参考訳（メタデータ） (2025-06-06T12:07:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。