論文の概要: Calibration Is Not Control: Why LLM-Agent Oversight Needs Intervention
- arxiv url: http://arxiv.org/abs/2606.21399v1
- Date: Fri, 19 Jun 2026 13:08:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:39:46.355137
- Title: Calibration Is Not Control: Why LLM-Agent Oversight Needs Intervention
- Title(参考訳): LLM-Agentの監視はなぜ介入が必要なのか
- Authors: Chubin Zhang, Zhenglin Wan, Xingrui Yu, Jingxuan Wu, Qi Wen, Pengfei Zhou, Wangbo Zhao, Ivor Tsang,
- Abstract要約: 2つのトラジェクトリプレフィックスは、異なるアクションを必要とする間、同じリスク見積を持つことができる。
我々は、このミスマッチをターゲットエラーとして形式化し、介入の利点を特定する。
- 参考スコア(独自算出の注目度): 14.376426170653707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Runtime oversight for LLM agents is commonly framed as scalar risk prediction: estimate failure likelihood, confidence, or uncertainty, then intervene once the score crosses a threshold. We argue that this framing targets the wrong object for control. The relevant question is not how likely the agent is to fail if it continues, but whether an available intervention would improve the outcome. Two trajectory prefixes can have the same risk estimate while requiring different actions, because one remains recoverable and the other does not. We formalize this mismatch as target error and identify intervention advantage, the expected utility gain from intervening rather than continuing, as the decision object for oversight. To measure this mismatch, we introduce prefix branching, a same-prefix counterfactual protocol that executes candidate actions from identical trajectory states. Across four benchmarks, action-conditioned control yields regime-dependent gains over scalar routing. In a calibration decomposition, recalibrating the same scalar score improves prediction metrics but leaves control regret unchanged, showing that calibration alone does not repair target error. A simple prefix-only action-conditioned controller substantially reduces regret in the strongest interactive regime, from 0.506 to 0.110 on ALFWorld. Gains shrink when interventions are weak or when scalar routing already preserves intervention-relevant information. These results suggest that LLM-agent oversight should move from calibrated risk scoring toward action-conditioned value estimation.
- Abstract(参考訳): LLMエージェントのランタイム監視は、一般的に、スカラーリスク予測(sscalar risk prediction: 失敗確率、信頼性、不確実性を推定し、スコアがしきい値を超えたときに介入する)として扱われる。
このフレーミングは間違った制御対象を狙うと我々は主張する。
関連する問題は、エージェントが継続して失敗する確率ではなく、利用可能な介入が結果を改善するかどうかである。
2つのトラジェクトリプレフィックスは、異なるアクションを必要とする間、同じリスク見積を持つことができる。
我々は、このミスマッチをターゲットエラーとして定式化し、介入の利点を識別する。
このミスマッチを計測するために、同一軌道状態から候補動作を実行する、同じプリフィックスの逆ファクトプロトコルであるプレフィックス分岐を導入する。
4つのベンチマークで、アクション条件付き制御はスカラールーティングよりも状態依存的な利得をもたらす。
キャリブレーション分解において、同じスカラースコアの補正は予測基準を改善するが、制御が不確かであり、キャリブレーションのみが目標誤差を修復しないことを示す。
単純なプレフィックスのみのアクションコンディションコントローラは、ALFWorldの0.506から0.110まで、最も強力なインタラクティブな状態における後悔を著しく低減する。
介入が弱い場合やスカラールーティングがすでに介入関連情報を保存している場合、利得は減少する。
以上の結果から, LLM-agent oversight は, 校正リスクスコアから行動条件値推定へ移行すべきであることが示唆された。
関連論文リスト
- Causal Agent Replay: Counterfactual Attribution for LLM-Agent Failures [0.0]
Causal Agent Replay (CAR) は、エージェントが構造的因果モデルとして実行されることをモデル化する。
ステップにダブルオペレーションを適用し、同じポリシーの下で軌道を再実行します。
CARはオープンソースで、ホストまたはフリーのローカルモデルで動作する。
論文 参考訳(メタデータ) (2026-06-06T17:44:23Z) - Proper Scoring Rules for Agentic Uncertainty Quantification [0.038379177968040606]
Trajectory Proper Score (TPS) は、厳密に適切なトラジェクトリレベルスコアルールの予測非依存のファミリーである。
軌道ECEは分解能が弱いが、スカラー化された軌道ブライアは崩壊したスカラーのみを付与する。
論文 参考訳(メタデータ) (2026-05-23T22:22:00Z) - Confidence-Gated Robot Autonomy: When Does Uncertainty Actually Help? [0.0]
しきい値付き自律において、不確実性は主に、潜在的なエラーをランク付けする能力によって問題となる。
本研究では,スピアマンランク相関,ペアブートストラップ等価性テスト,行動/遅延合意を用いて不確実性を評価する。
論文 参考訳(メタデータ) (2026-05-18T08:35:27Z) - Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention [2.0838114053126366]
LLM批判モデルによる積極的な介入は、しばしば信頼性を向上させると仮定されるが、展開時の影響はよく理解されていない。
高いオフライン精度 (AUROC 0.94) を持つバイナリLLM批判者は, にもかかわらず, 高い性能劣化を引き起こす可能性がある。
我々は、50のタスクからなる小さなパイロットを用いて、完全な配備を必要とせず、介入が助けになるか、害を与えるかを見積もる事前デプロイテストを提案する。
論文 参考訳(メタデータ) (2026-02-03T10:02:50Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。