論文の概要: DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents
- arxiv url: http://arxiv.org/abs/2606.17029v1
- Date: Mon, 15 Jun 2026 17:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.132202
- Title: DEEPRUBRIC: Evidence-Tree Rubric Supervision for Efficient Reinforcement Learning of Deep Research Agents
- Title(参考訳): DEEPRUBRIC:ディープリサーチエージェントの効率的な強化学習のためのエビデンス・トレー・ルーブリック・スーパービジョン
- Authors: Minghang Zhu, Chuyang Wei, Junhao Xu, Yilin Cheng, Zhumin Chen, Jiyan He,
- Abstract要約: 報奨に基づく強化学習は、レポート品質を報奨信号に変換するチェック可能な基準に最適化することにより、ディープリサーチエージェントを改善する。
既存の研究の多くは、LLMに与えられたクエリに対してルーリックを生成するよう求めているが、モデルが基盤となる情報要求を推測できない場合、生成されたルーリックは不完全であり、RL効率を低下させる可能性がある。
より信頼性の高いクエリ-ルーブリックの監視を得るために、このプロセスを逆転するデータ構築フレームワークであるDeepRubricを紹介します。
- 参考スコア(独自算出の注目度): 17.420077157633852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research agents synthesize long-form reports by searching and reasoning over retrieved evidence. Reinforcement learning with rubric-based rewards improves these agents by optimizing them against checkable criteria that translate report quality into reward signals, but its efficiency depends on whether those criteria reliably capture the task scope and evidence needs. Most existing studies ask an LLM to generate rubrics for a given query, but when the model fails to infer the underlying information needs, the generated rubrics may be incomplete and reduce RL efficiency. To obtain more reliable query--rubric supervision, we introduce DeepRubric, a data construction framework that reverses this process: instead of inferring evaluation criteria for a given query, it first determines what an evidence-backed report should be evaluated on and then synthesizes aligned query--rubric pairs from those evaluation targets. Starting from a sampled seed topic, DeepRubric builds an evidence tree by recursively expanding evidence-backed sub-questions, whose leaves serve as atomic and verifiable evaluation targets. It then uses the evidence tree to synthesize the training query and rubrics, ensuring that the reward evaluates exactly the information requested by the query. Using DeepRubric, we construct 9K query--rubric supervision examples and train DeepRubric-8B with rubric-based GRPO, achieving comparable performance to prior open state-of-the-art deep research models across three benchmarks with roughly 13x fewer RL GPU-hours.
- Abstract(参考訳): ディープリサーチエージェントは、回収された証拠を探索し、推論することで、ロングフォームレポートを合成する。
報告品質を報奨信号に変換するチェック可能な基準に対して最適化することで、ルーブリックに基づく報酬による強化学習はこれらのエージェントを改善するが、その効率は、それらの基準がタスクの範囲とエビデンスのニーズを確実に捉えているかどうかに依存する。
既存の研究の多くは、LLMに与えられたクエリに対してルーリックを生成するよう求めているが、モデルが基盤となる情報要求を推測できない場合、生成されたルーリックは不完全であり、RL効率を低下させる可能性がある。
このプロセスを逆転させるデータ構築フレームワークであるDeepRubricを導入し、与えられたクエリに対する評価基準を推測する代わりに、まずエビデンスベースのレポートを評価すべきかどうかを判断し、その評価対象からアライメントされたクエリ-ルーブリックペアを合成する。
DeepRubricはサンプルのシードトピックから始まり、エビデンスに支えられたサブクエストを再帰的に拡張することでエビデンスツリーを構築し、その葉は原子的で検証可能な評価ターゲットとして機能する。
次に、エビデンスツリーを使用して、トレーニングクエリとルーブリックを合成し、報酬がクエリが要求した情報を正確に評価することを保証する。
DeepRubricを使用して、9Kクエリ-ルーブリック監視の例を構築し、ルーブリックベースのGRPOでDeepRubric-8Bをトレーニングし、約13倍のRLGPU時間を持つ3つのベンチマークで、最先端の研究モデルに匹敵するパフォーマンスを実現した。
関連論文リスト
- QUBRIC: Co-Designing Queries and Rubrics for RL Beyond Verifiable Rewards [68.15832368034815]
クエリとルーブリックを共同設計するフレームワークを提案する。
QUBRICはSFTベースラインよりもアリーナハードで+5.5ポイントのゲインを達成している。
論文 参考訳(メタデータ) (2026-06-02T17:53:04Z) - Deep Research as Rubric for Reinforcement Learning [35.642522713903794]
オープンエンドのルーブリックを構築するための2段階のフレームワークを提案する。
DR-rubric-8Bはフロンティアモデルなしでブートストラップ生成をサポートする。
実験によると、DR-rubricは1K -- 3Kのトレーニングインスタンスで強力な競争性能を達成する。
論文 参考訳(メタデータ) (2026-05-31T08:25:04Z) - RubricEM: Meta-RL with Rubric-guided Policy Decomposition beyond Verifiable Rewards [76.17893114021757]
長い形式のレポートを計画し、調査し、エビデンスを評価し、合成する深層研究システムには、根本的な答えがなく、多くのツール強化された決定にまたがる。
本研究では,ルーブリックは最終回答評価者だけでなく,ポリシーの実行,判断フィードバック,エージェントメモリを構成する共有インターフェースとして機能すべきである,と論じる。
我々は、段階的な政策分解とリフレクションに基づくメタ政治進化を組み合わせたルーリック誘導強化学習フレームワークEMを導入する。
論文 参考訳(メタデータ) (2026-05-11T17:40:38Z) - Rethinking Reasoning-Intensive Retrieval: Evaluating and Advancing Retrievers in Agentic Search Systems [55.04168927059962]
推論集約的な検索は、単にトピックの類似性に一致するのではなく、下流の推論を支持する証拠を明らかにすることを目的としている。
BRIGHT-Proは、専門家による注釈付きベンチマークで、各クエリを複数アスペクトのゴールドエビデンスで拡張する。
また,相補的な正と正条件の強陰性を生成するアスペクト分解型合成コーパスであるRTriever-Synthを構築した。
論文 参考訳(メタデータ) (2026-05-05T17:42:50Z) - Learning Query-Specific Rubrics from Human Preferences for DeepResearch Report Generation [80.12435680651488]
本稿では,DeepResearchレポート生成に適した,人間の参照型クエリ専用ルーリックジェネレータを訓練するためのパイプラインを提案する。
まず,DeepResearchスタイルのアノテートクエリのデータセットを,ペアレポートよりも人間の好みで構築し,強化学習を通じてルーリックジェネレータを訓練する。
提案したルーリック・ジェネレータは既存のルーリック・デザイン・ストラテジーよりも、より差別的で優れたヒューマン・アライメント・インテリジェンスを実現することを実証的に示す。
論文 参考訳(メタデータ) (2026-02-03T15:09:56Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。