論文の概要: Breaking the Evaluation Paradox: Evaluating High-Entropy Search with Computationally Irreducible Constraints
- arxiv url: http://arxiv.org/abs/2606.22783v1
- Date: Mon, 22 Jun 2026 02:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:39:30.686856
- Title: Breaking the Evaluation Paradox: Evaluating High-Entropy Search with Computationally Irreducible Constraints
- Title(参考訳): 評価パラドックスを破る:計算不能制約による高エントロピー探索の評価
- Authors: Juntao Wu, Wei Wen, Xianting Huang, Shuai Pang, Ruizhi Qiao, Xing Sun, Ke Wang,
- Abstract要約: 大規模な言語モデルの 徹底的な探索能力の評価は パラドックスに悩まされています
完全性を検証するには完全な基底真理が必要ですが、高エントロピー列挙タスクは、そのような基底真理を人間が作るのを不可能にします。
本稿では,計算不能制約の原理に基づくフレームワークであるVERITASを紹介する。
- 参考スコア(独自算出の注目度): 24.33065543278173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating the exhaustive search capabilities of large language models (LLMs) is plagued by a fundamental paradox: verifying completeness requires complete ground truth, yet high-entropy enumeration tasks make such ground truth impossible for humans to create. This causes benchmarks to systematically penalize models for outperforming their human annotators. Despite rapid progress in web-search and deep research agents -- which now issue hundreds of queries, traverse diverse sites, and synthesize long reports -- evaluation still largely relies on partially annotated answer sets, LLM-based judges, or single-answer questions that avoid genuinely exhaustive search scenarios. We break this paradox by shifting the evaluation paradigm from simulating a messy reality to constructing computationally pure challenges. We introduce VERITAS (Verifiable Traversal Assessment for Search), a framework built on the principle of computationally irreducible constraints. By introducing novel, non-optimizable constraints, we create verifiable, sparse-answer search tasks that are computationally equivalent to exhaustive enumeration. These constraints are easy to verify but impossible for LLMs or search engines to optimize, forcing agents to genuinely traverse the entire search space. VERITAS can automatically generate a virtually infinite number of test cases with perfect ground truth and precise difficulty control, with marginal instance cost dominated by hash computations. This provides not only a robust benchmark for evaluating systematic exploration under uncertainty but also a scalable method for generating training data to improve these crucial, yet underdeveloped, capabilities.
- Abstract(参考訳): 完全性を検証するには完全な基底真理が必要であるが、高エントロピー列挙タスクは、そのような基底真理を人間が作成することは不可能である。
これにより、ベンチマークは人間のアノテーションよりも優れたモデルを体系的にペナルティ化する。
ウェブ検索とディープリサーチエージェントの急速な進歩は、現在数百のクエリを発行し、多様なサイトを横断し、長いレポートを合成している。
我々は、このパラドックスを、評価パラダイムを乱れた現実をシミュレートすることから、計算的に純粋な課題を構築することに移すことで破壊する。
本稿では,計算不能制約の原理に基づいて構築された VERITAS (Verifiable Traversal Assessment for Search) を提案する。
新規で最適化不可能な制約を導入することにより、計算的に全列挙と等価な、検証可能なスパース・アンサー検索タスクを作成する。
これらの制約は検証が容易であるが、LLMや検索エンジンが最適化することは不可能であり、エージェントは検索空間全体を真に横切ることを余儀なくされる。
VERITASは、完全基底真理と正確な難易度制御を備えた、事実上無限個のテストケースを自動生成できる。
これは、不確実性の下で体系的な探索を評価するための堅牢なベンチマークを提供するだけでなく、これらの重要で未開発の能力を改善するためにトレーニングデータを生成するスケーラブルな方法も提供する。
関連論文リスト
- Empirical Evidence of Complexity-Induced Limits in Large Language Models on Finite Discrete State-Space Problems with Explicit Validity Constraints [0.6524460254566904]
問題複雑性の増大にともなうLarge Reasoning Models (LRM) における推論の頑健さを系統的に評価した。
我々は,9つの古典的推論タスク,ブール満足度,クリプトリズム,グラフカラーニング,河川横断,ハノイ塔,ウォータージャグ,チェッカージャンプ,スドゥーク,ルービックキューブを構築した。
非一貫性な推論トレース,制約違反,状態追跡の喪失,確実な不正確なアウトプットを伴って,50%を超える相当な精度低下を観測する。
論文 参考訳(メタデータ) (2026-04-15T00:35:22Z) - Not All Queries Need Deep Thought: CoFiCot for Adaptive Coarse-to-fine Stateful Refinement [24.721024438862553]
CoFiCotは粗粒度適応フレームワークで、推論戦略を問題に合わせる。
セマンティックエントロピー、コンセンサス信頼性、予測推論深度でクエリをトリアージするマルチメトリック分類器を実装した。
これにより、複雑なクエリをコンテキスト対応の修正ループにルーティングしながら、単純なクエリに対して効率的なアグリゲーションを適用することができる。
論文 参考訳(メタデータ) (2026-03-09T11:23:07Z) - HotelQuEST: Balancing Quality and Efficiency in Agentic Search [6.1626572270420334]
エージェント検索は,大規模言語モデル(LLM)を利用した適応検索システムにおいて,有望なパラダイムとして登場した。
ホテルクエスト(HotelQuEST)は、214のホテル検索クエリからなるベンチマークで、単純な事実要求から複雑なクエリまで様々である。
LLMをベースとしたエージェントは,従来のレトリバーよりも精度が高いが,冗長なツールコールや準最適ルーティングによるコストが著しく高いことがわかった。
論文 参考訳(メタデータ) (2026-02-27T11:50:57Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。
このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。
ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文 参考訳(メタデータ) (2024-09-22T09:27:42Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Shortcomings of Question Answering Based Factuality Frameworks for Error
Localization [51.01957350348377]
質問応答(QA)に基づく事実性指標は、生成した要約の誤り範囲を正しく識別できないことを示す。
このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。
本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを確定的に示す。
論文 参考訳(メタデータ) (2022-10-13T05:23:38Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。