論文の概要: Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback
- arxiv url: http://arxiv.org/abs/2606.09748v1
- Date: Mon, 08 Jun 2026 17:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.58226
- Title: Multi-Turn Evaluation of Deep Research Agents Under Process-Level Feedback
- Title(参考訳): プロセスレベルフィードバックによるディープリサーチエージェントのマルチターン評価
- Authors: Rishabh Sabharwal, Hongru Wang, Amos Storkey, Jeff Z. Pan,
- Abstract要約: 既存のDRA(Deep Research Agent)のベンチマークでは、シングルショットアウトプットのみを評価し、重要な疑問を無視している。
自己回帰とプロセスレベルのフィードバックという2つのフィードバック設定の下で,DRAのマルチターン評価を行う。
分析の結果, (i) 自己反射下では, エージェントがほぼ等しい速度でルーブリック基準を組み込んで回帰し, 無視できる純改善をもたらすこと, (ii) プロセスレベルのフィードバックの1ラウンドでかなりの利得が得られること, (ii) 正規化スコアを約8~15ドル引き上げ, 約35ドルとした。
- 参考スコア(独自算出の注目度): 22.73903507349779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for deep research agents (DRAs) assess only single-shot outputs, ignoring a key question: can DRAs improve their reports when guided by feedback? To investigate this, we conduct a multi-turn evaluation of DRAs under two feedback settings: self-reflection, in which the agent revises its report without any external diagnostic signal, and process-level feedback, in which the agent receives guidance targeting gaps in its research strategy. To enable process-level feedback, we design Research Gap Inference (RGI), a method that analyzes patterns of satisfied and unsatisfied rubric criteria to infer research-process gaps. Our analysis reveals three key findings: (i) under self-reflection, agents incorporate and regress on rubric criteria at nearly equal rates, yielding negligible net improvement; (ii) a single round of process-level feedback yields substantial gains, raising the normalized score by approximately $8$-$15$ points and yielding a roughly $35$-$40\%$ incorporation rate; (iii) these gains do not compound over subsequent turns, as agents regress on up to $24\%$ of previously satisfied criteria when rewriting the full report to address remaining gaps. Even with targeted guidance, reliable multi-turn improvement remains out of reach for the DRA architectures we evaluate. Our code and results are publicly available at https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs.
- Abstract(参考訳): 既存のDRA(Deep Research Agent)のベンチマークでは、シングルショットアウトプットのみを評価し、重要な疑問を無視している。
そこで本稿では, エージェントが外部診断信号を使わずにレポートを更新する自己回帰と, エージェントが研究戦略における目標ギャップを目標とするガイダンスを受信するプロセスレベルフィードバックという2つのフィードバック設定の下で, DRAのマルチターン評価を行う。
プロセスレベルのフィードバックを可能にするために,RGI (Research Gap Inference) を設計した。
私たちの分析では3つの重要な発見が明らかになりました。
(i)自己回帰の下では、代理人は、ほぼ同等の率でルーブリック基準を取り入れて拒絶し、無視できる純改善をもたらす。
(ii) プロセスレベルのフィードバックの1ラウンドで実質的な利得が得られ、正規化スコアが約8ドル~15ドルポイント上昇し、約35ドル~40ドル%の法人化率が得られる。
(iii)これらの利得は、残余のギャップに対応するために報告書全体を書き換える際、エージェントが以前満足していた基準の最大2,4\%の費用を課すため、その後のターンに複雑にしない。
目標とするガイダンスがあっても、信頼性の高いマルチターン改善は、評価したDRAアーキテクチャには達していません。
私たちのコードと結果は、https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAsで公開されています。
関連論文リスト
- DR$^{3}$-Eval: Towards Realistic and Reproducible Deep Research Evaluation [55.02569059688697]
Deep Research Agents (DRA) は、計画、検索、マルチモーダル理解、レポート生成を含む、複雑で長期にわたる研究課題を解決することを目的としている。
DR$3$-Evalは,マルチモーダル・マルチファイルレポート生成におけるディープリサーチエージェントの評価のための,現実的で再現可能なベンチマークである。
論文 参考訳(メタデータ) (2026-04-16T06:40:02Z) - MiroEval: Benchmarking Multimodal Deep Research Agents in Process and Outcome [109.15093810810214]
MiroEvalはディープリサーチシステムのベンチマークおよび評価フレームワークである。
ベンチマークは、実際のユーザニーズに基づいて100のタスクで構成されている。
提案した評価スイートは3つの相補的な次元に沿って深層研究システムを評価する。
論文 参考訳(メタデータ) (2026-03-30T13:16:03Z) - Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents [24.080021799509847]
textscEvalAct (Evaluate-as-Action) は暗黙的な検索品質評価を明示的なアクションに変換する。
textscEvalActは、マルチホップタスクにおいて最も高い平均精度を達成する。
論文 参考訳(メタデータ) (2026-03-10T05:22:40Z) - SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents [30.92763154920672]
SRR-Judgeは、推論と探索行動の信頼性の高い段階評価のためのフレームワークである。
SRR-Judgeは、探索積分推論のためのきめ細かいガイダンスを提供し、効率的な後トレーニングアノテーションを可能にする。
SRR-Judgeは、DeepSeek-V3.1のようなより大きなモデルよりも信頼性の高いステップレベルの評価を提供する。
論文 参考訳(メタデータ) (2026-02-08T02:07:41Z) - Exploring Reasoning Reward Model for Agents [30.458783880389216]
エージェント強化学習(Agentic RL)は、エージェントが複雑な推論やツールの使用を行えるようにして、顕著な成功を収めた。
ほとんどの手法は依然として、トレーニングに対するスパースな結果ベースの報酬に依存しています。
本稿ではエージェント・リソン・リワードモデル(Agent-RRM)を紹介する。
論文 参考訳(メタデータ) (2026-01-29T18:59:52Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。