論文の概要: Cherry-pick Override: Unsafe Directional Commitment in LLM Judges under Mixed Evidence
- arxiv url: http://arxiv.org/abs/2606.07834v1
- Date: Fri, 05 Jun 2026 20:51:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.476205
- Title: Cherry-pick Override: Unsafe Directional Commitment in LLM Judges under Mixed Evidence
- Title(参考訳): チェリーピックオーバーライド:LLM審査員の安全でない指示
- Authors: Haoran Xu,
- Abstract要約: 我々は、検証生成とコミットメント承認を分離する外部コミットメント制御層を論じる。
我々はCCOを明示的なタスク契約で定義し、同一のデノミネータ診断プロトコルで報告する。
- 参考スコア(独自算出の注目度): 14.905172804386973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM judges increasingly turn verdicts into system commitments. Under mixed evidence (claims with both supporting and refuting sources) this is unsafe: when the schema exposes CONFLICTING as the authorized non-directional verdict, returning SUPPORTS/REFUTES is an unauthorized directional commitment, a failure we name Cherry-pick Override (CCO). We define CCO under an explicit task contract and report it with a same-denominator diagnostic protocol paired with matched-coverage bootstrap and an apples-to-apples random-veto null. On AVeriTeC's Conflicting subset (N_C = 150), three-option judges return a directional verdict on more than 84% of mixed-evidence claims; under the typed schema, three-judge majority voting amplifies direction-on-conflict on AVeriTeC (0.887 vs. 0.840; 95% CI [+0.013, +0.080]) but does not replicate on VitaminC-Mixed. Walking an intervention ladder of common single-channel fixes (typed vocabulary, panel aggregation, confidence thresholding, validator-only filtering), each leaves a distinct residual failure: panel aggregation suppresses single-judge CONFLICTING dissent in 48% of CCO cases; the panel is well-calibrated for direction (ECE = 0.07 on pure-S/R) so confidence cannot operationally separate CCO from correct directional commits; validator-as-classifier nearly halves pure-evidence accuracy. A minimal two-channel reference probe reaches operating points neither single channel reaches; under the random-veto null its promotion to CONFLICTING is structurally targeted on AVeriTeC (empirical p < 1/2001) and weaker but in the same direction on VitaminC-Mixed, a selectivity result rather than a magnitude one. We argue for an external commitment-control layer that separates verdict generation from commitment authorization, using structural evidence and confidence as orthogonal channels and NO-COMMIT as a routed controller state.
- Abstract(参考訳): LLM判事はますます、評決をシステムへのコミットメントに変える。
スキーマがConFLICINGを承認された非指向の判断として公開すると、REFUTESは無許可の方向性のコミットメントであり、私たちがCherry-pick Override (CCO)と名付ける失敗である。
我々は、CCOを明示的なタスク契約の下で定義し、マッチしたカバレッジブートストラップとアプレットからアプレットへのランダムベトヌルを組み合わせた同一のデノミネータ診断プロトコルで報告する。
AVeriTeCの衝突部分集合(N_C = 150)では、3つのオプションの裁判官が84%以上の混合証拠の主張に対して方向の判定を返す。
共通の単一チャネル修正(タイプ付きボキャブラリ、パネルアグリゲーション、信頼しきい値付け、バリケータのみのフィルタリング)の介入はしごを歩くと、それぞれに異なる障害がある: パネルアグリゲーションは、CCOのケースの48%で、意見の一致を抑える パネルは、方向(純粋S/RではECE = 0.07)に対して十分に校正されているため、信頼性は、正しい方向コミットからCCOを操作的に分離できない。
ランダムベトヌルの下では、CONFLICINGへの昇格はAVeriTeC (empirical p < 1/2001) に対して構造的に標的とされ、より弱いが、VitaminC-Mixed 上でも同様の方向に、マグニチュード1よりも選択性の結果となる。
我々は,信頼度と構造的証拠を直交チャネルとし,NO-COMMITを経路制御状態とする,検証生成をコミットメント承認から分離する外部コミットメント制御層について論じる。
関連論文リスト
- Hierarchical Certified Semantic Commitment for Byzantine-Resilient LLM-Agent Collaboration [30.310793549183117]
本稿では,BFTにインスパイアされたプロトコルH-CSC(Hierarchical Certified Semantic Commitment)を紹介する。
H-CSCはBFT対応バケット(0.31から2.04度)に低角偏差でコミットし、意図したようにBFTを超えるラウンド(n3f+1)の100%を中止する。
論文 参考訳(メタデータ) (2026-06-05T14:35:58Z) - Evidence-Grounded Ensemble Diagnosis of 802.11 Packet Captures: A Multi-Stage Pipeline with Deterministic Reliability Scoring [1.0170129555792935]
802.11パケットキャプチャの診断には、専門家のプロトコル知識が必要で、遅く、エンジニア間で一貫性がなく、スケールできない。
LLMベースのアプローチは、キャプチャーから欠落するが製造されたプロトコルイベントを聴取し、未校正された信頼スコアを生成し、テスト中のモデルによって黄金の基準が共同生成されると評価バイアスを被る。
PROBEは3つの障害に対処する多段階パイプラインである。
論文 参考訳(メタデータ) (2026-06-05T03:39:58Z) - Refute-or-Promote: An Adversarial Stage-Gated Multi-Agent Review Methodology for High-Precision LLM-Assisted Defect Discovery [0.685316573653194]
Refute-or-Promote(Refute-or-Promote)は、候補生成のためのSCH(Stratified Context Hunting)、逆殺命令、コンテキスト、Cross-Model Critic(CMC)を組み合わせた推論時信頼性パターンである。
提案するRefute-or-Promoteは、SCH(Stratified Context Hunting)を併用した推論時信頼性パターンで、候補生成、逆死命令、コンテキスト、およびクロスモデル批判(CMC)を行う。
提案するRefute-or-Promoteは、SCH(Stratified Context Hunting)を併用した推論時信頼性パターンで、候補生成、逆死命令、コンテキスト、およびクロスモデル批判(CMC)を行う。
論文 参考訳(メタデータ) (2026-04-21T03:55:35Z) - FACT-E: Causality-Inspired Evaluation for Trustworthy Chain-of-Thought Reasoning [49.65751420291115]
CoT(Chain-of-Thought)プロンプトはLSM推論を改善したが、モデルはしばしば不誠実な中間ステップを含むコヒーレントな説明を生成する。
我々は、CoTの品質を評価するための因果性に着想を得たフレームワークであるFACT-Eを提案する。
FACT-Eは推論・軌道選択を改善し、文脈内学習を強くすることを示す。
論文 参考訳(メタデータ) (2026-04-12T15:35:08Z) - Cross-Context Verification: Hierarchical Detection of Benchmark Contamination through Session-Isolated Analysis [0.0]
Cross-Context Verification (CCV) は、N個の独立したセッションで同じベンチマーク問題を解決するブラックボックス方式である。
9つのSWE分岐検証問題(45の試験、クロードオプス4.6、温度0)では、CCVは汚染されたものと真の推論との間の完全な分離を達成する。
論文 参考訳(メタデータ) (2026-03-23T00:18:34Z) - CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles [1.3011345529764784]
そこで本研究では,CIRCUSが閾値ローバストな「コア」回路を生成できることを示す。
Gemma-2-2BとLlama-3.2-1Bでは、厳密なコンセンサス回路はコンストラクタの結合よりも40倍小さい。
我々はさらに,合意を確定したノードが非合意制御と一致しない場合に,アクティベーションパッチの因果関係を検証した。
論文 参考訳(メタデータ) (2026-02-28T07:44:04Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。