論文の概要: CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks
- arxiv url: http://arxiv.org/abs/2606.21777v1
- Date: Fri, 19 Jun 2026 21:50:35 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 14:53:52.011995
- Title: CalVerT: Augmenting Agents with Calibrated Verifier Telemetry Improves Action and Learning in Knowledge-Intensive Tasks
- Title(参考訳): CalVerT: 知識集約型タスクにおける行動と学習を改善する校正検証テレメトリによるエージェント強化
- Authors: Ashwin Vinod, Ying Ding, Elias Stengel-Eskin,
- Abstract要約: 知識集約型質問応答におけるLLMエージェントは、不完全な知識による検索と推論のアクションを取る。
検証器テレメトリ (CalVerT) を導入し, エージェントの状態をテレメトリで拡張する。
CalVerTはトレーニングフリーとトレーニングベースの両方の設定でエージェントを改善することができる。
- 参考スコア(独自算出の注目度): 23.97949902698555
- License:
- Abstract: LLM agents in knowledge intensive question answering take retrieval and reasoning actions with incomplete knowledge about whether their current answer is uncertain, unsupported, or already complete. This produces two failure modes: committing to confident but unsupported answers, which hurts accuracy, and over-retrieving when the evidence in hand already suffices, resulting in wasted compute. To give agents a more complete picture of the state space they are operating in, we introduce calibrated verifier telemetry (CalVerT), which augments the agent's state with additional telemetry: a calibrated self-confidence score and a grounding verifier score. We show that CalVerT can improve agents in both training-free and training-based settings. On four QA benchmarks, we find that CalVerT raises F1 by triggering retrieval in cases where agents over-rely on parametric knowledge, while cutting redundant retrieval in cases where agents have sufficient context to answer. We show that CalVerT can augment existing QA frameworks without training. Moreover, CalVerT also improves trained systems: by simply augmenting an agent's state with telemetry, we observe improvements after reinforcement learning, as compared to an agent with identical training but no CalVerT telemetry.
- Abstract(参考訳): 知識に満ちた質問応答のLLMエージェントは、現在の回答が不確実か、サポートされていないか、あるいは既に完了しているかという不完全な知識で、検索と推論のアクションを取る。
これは2つの障害モードを生成する。信頼できない回答をコミットすることで精度が損なわれ、手元にある証拠がすでに十分であるときに過剰に検索され、結果として計算が無駄になる。
エージェントが操作している状態空間のより完全な画像を与えるため、キャリブレーションされた検証器テレメトリ(CalVerT)を導入し、これによりエージェントの状態をテレメトリとして、キャリブレーションされた自己自信スコアとグラウンドディング検証器スコアを導入する。
CalVerTはトレーニングフリーとトレーニングベースの両方の設定でエージェントを改善することができる。
4つのQAベンチマークにおいて、エージェントがパラメトリック知識を過度に活用する場合には、CalVerTがF1をトリガーし、エージェントが答える十分なコンテキストを持つ場合には冗長検索を切断する。
CalVerTはトレーニングなしで既存のQAフレームワークを拡張できることを示します。
さらに、CalVerTはトレーニングシステムも改善する: テレメトリでエージェントの状態を増大させることで、強化学習後の改善を観察できる。
関連論文リスト
- Socratic-SWE: Self-Evolving Coding Agents via Trace-Derived Agent Skills [12.442806027914097]
本稿では,エージェントの過去の解法トレースをトレーニング信号のソースとして再利用する,クローズドループ自己進化フレームワークであるSocratic-SWEを紹介する。
トレースを報酬計算の証拠としてのみ扱うのではなく、Socratic-SWEはそれらを、繰り返し発生する障害と効果的な修復パターンを要約した構造化されたエージェントスキルに蒸留する。
論文 参考訳(メタデータ) (2026-06-05T16:00:17Z) - Distillation Traps and Guards: A Calibration Knob for LLM Distillability [54.90137955363471]
そこで本研究では,教師の蒸留性を制御するためのポストホック校正法を提案する。
我々の目標は、タスクユーティリティ、KLアンカー、およびクロストケナイザーキャリブレーション報酬を組み合わせることである。
実験により、蒸留可能な教師から蒸留した学生は、SFTおよびKDベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-04-21T01:22:35Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - Combee: Scaling Prompt Learning for Self-Improving Language Model Agents [58.781108056413274]
近年の即時学習の進歩により、大規模言語モデルエージェントはパラメータ変更なしに推論時間からタスク関連知識を取得できるようになっている。
多くのエージェントトレースや並列エージェントの実行から学習が増加する傾向に対応するために、素早い学習を並行して実行することは効率的かつ有益である。
我々は,自己改善エージェントのための並列プロンプト学習をスケールする新しいフレームワークであるCombeeを提案する。
論文 参考訳(メタデータ) (2026-04-05T20:07:48Z) - SWE-QA-Pro: A Representative Benchmark and Scalable Training Recipe for Repository-Level Code Understanding [41.98672557723593]
SWEQA-Proは,多種多様な長期リポジトリと実行可能な環境から構築されたベンチマークである。
さらに,2段階のトレーニングレシピであるSupervised Fine-Tuning(SFT)とReinforcement Learning from AI Feedback(RLAIF)という,スケーラブルな合成データパイプラインを提案する。
SWE-QA-ProのGPT-4oを2.3ポイント超え、最先端モデルとのギャップを大幅に狭める。
論文 参考訳(メタデータ) (2026-03-17T05:12:48Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - Understanding the Role of Training Data in Test-Time Scaling [56.12341509545198]
線形回帰のための文脈内重み予測タスクを訓練した変圧器の試験時間スケーリング性能について検討した。
多様な、関連性があり、難しいタスクセットでのトレーニングが、テスト時間のスケーリングに最高のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2025-10-04T01:38:48Z) - Improving Metacognition and Uncertainty Communication in Language Models [13.389881635116472]
大規模言語モデル(LLM)は、意思決定の文脈でますます使われている。
LLMの自信はしばしば誤解され、正解と誤解の区別が不十分である。
教師付き微調整が不確実性を伝達するモデルの能力を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2025-09-30T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。