論文の概要: Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL
- arxiv url: http://arxiv.org/abs/2606.14211v1
- Date: Fri, 12 Jun 2026 07:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.807173
- Title: Closing the Reflection Gap: A Free Calibration Bonus for Agentic RL
- Title(参考訳): リフレクションギャップを閉鎖する : エージェントRLのための自由校正ボーナス
- Authors: Yinglun Zhu,
- Abstract要約: RefGRPOは、標準的なRLアルゴリズムを2つの重要な要素で強化する、シンプルだが効果的な修正である。
エージェント自身の反射と実際の結果とを対比して計算した自由キャリブレーションボーナス。
結果の反射は、エージェントを環境フィードバックに基づく独自の検証器に変える。
- 参考スコア(独自算出の注目度): 12.234169944475537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLMs are increasingly deployed as agents that interact with external environments and observe feedback such as execution results, error messages, and tool outputs. A well-functioning agent should be able to leverage this feedback to accurately assess its own performance. Yet we find a persistent reflection gap: LLM agents tend to mis-assess their own outputs after observing concrete environment feedback -- even for questions they correctly answered -- and standard RL barely helps due to a credit-assignment mismatch. To close this gap, we propose RefGRPO, a simple yet effective fix that augments standard RL algorithms with two key ingredients: a free calibration bonus computed by contrasting the agent's own reflection with the actual outcome (requiring no additional reward model, LLM judge, or external annotation), and a dynamic schedule on its coefficient. Compared to standard RL baselines, our method simultaneously improves reflection calibration (e.g., reduces underconfidence rate $44.4\% \to 7.7\%$) and task accuracy (e.g., $75.1\% \to 76.5\%$) on text-to-SQL across five benchmarks. The resulting calibrated reflection turns the agent into its own verifier grounded in environment feedback, which further enables (i) better self-improvement that uses reflections as pseudo-rewards without outcome supervision, and (ii) more effective test-time selective prediction by committing only to rollouts flagged as correct.
- Abstract(参考訳): LLMは、外部環境と対話し、実行結果、エラーメッセージ、ツール出力などのフィードバックを観察するエージェントとして、ますます多くデプロイされている。
十分に機能するエージェントは、このフィードバックを活用して、自身のパフォーマンスを正確に評価しなければなりません。
LLMのエージェントは、具体的な環境フィードバック(たとえ正しい回答をしたとしても)を観察した後、自分たちのアウトプットを誤って評価する傾向があり、標準のRLはクレジット割り当てミスマッチのためにほとんど役に立たない。
このギャップを埋めるために、RefGRPOを提案する。これは標準RLアルゴリズムを2つの重要な要素で強化する単純な修正であり、エージェント自身のリフレクションと実際の結果(追加の報酬モデル、LLM判定、外部アノテーションを必要としない)を対比して計算した自由キャリブレーションボーナスと、その係数の動的スケジュールである。
標準のRLベースラインと比較して,5つのベンチマークでテキストからSQLへのリフレクションキャリブレーション(例:4.4\% \to 7.7\%$)とタスク精度(例:75.1\% \to 76.5\%$)を同時に改善する。
その結果、調整された反射により、エージェントは環境フィードバックに基づく独自の検証器となり、さらに可能となる。
一 結果監督無しの擬似反省会としてリフレクションを利用するより良い自己改善
(II)正にフラグ付けされたロールアウトのみをコミットすることで、より効果的なテスト時間選択予測を行う。
関連論文リスト
- Reinforced Agent: Inference-Time Feedback for Tool-Calling Agents [6.158612515104146]
エージェントフィードバックとレビュアーフィードバックのトレードオフを測定するために、ヘルプフルネス・ハームフルネスメトリクスを導入します。
我々はBFCLとTau2-Bench(マルチターンステートフルシナリオ)に対するアプローチを評価し、無関係検出では+5.5%、マルチターンタスクでは+7.1%を達成した。
GPT-4oでは,評価モデルo3-miniが3:1の利益率と2.1:1の利益率を達成した。
論文 参考訳(メタデータ) (2026-04-29T22:09:47Z) - Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders [74.55181072260713]
ビームサーチの負のトレーニングは、ランダムな負のトレーニングよりも一貫して優れている。
ここでは,ウィンドウに偽陽性率(FPR)を制約し,Top-K$メトリクスとより直接整合させるウィンドウ付き部分AUC(WPAUC)を紹介する。
4つの実世界のデータセットの実験は、理論を検証し、一貫した最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2026-04-24T12:31:57Z) - Utilizing and Calibrating Hindsight Process Rewards via Reinforcement with Mutual Information Self-Evaluation [50.696688705287755]
我々は、強化学習におけるスパース報酬課題を克服するために、相互情報自己評価を提案する。
MISEにより、エージェントは、疎外的信号を補う高密度な内部報酬から自律的に学習することができる。
我々は、後見自己評価報酬を利用することは、政策と代行報酬政策の間のKL分散項と相互情報を組み合わせた目的を最小化することと等価であることを示す。
論文 参考訳(メタデータ) (2026-04-13T15:18:51Z) - Optimizing RAG Rerankers with LLM Feedback via Reinforcement Learning [47.963236269307735]
リランカはRetrieval-Augmented Generationの検索結果の精錬において重要な役割を果たす。
現在のリグレードモデルは通常、ダウンストリーム生成プロセスから切り離された静的な人間アノテートされた関連ラベルに独立して最適化される。
本稿では,LLMの生成品質と直接整合する強化学習フレームワークであるReRanking Preference Optimization(RRPO)を紹介する。
論文 参考訳(メタデータ) (2026-04-02T14:19:47Z) - RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - CtrlA: Adaptive Retrieval-Augmented Generation via Inherent Control [26.21425058462886]
大規模言語モデル(LLM)の幻覚を、検索された外部知識で緩和するための有望な解決策として、検索拡張世代(RAG)が出現している。
本稿では,適応的なRAGを表現的視点から解決し,固有な制御ベースフレームワークであるnameを開発するための最初の試みについて述べる。
実験により、名前は様々なタスクにおいて既存の適応RAG法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-29T03:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。