論文の概要: Code Correctness Signals in LLM Hidden States: Pre-Generation Probing and Repair Geometry
- arxiv url: http://arxiv.org/abs/2606.14530v1
- Date: Fri, 12 Jun 2026 15:06:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.950057
- Title: Code Correctness Signals in LLM Hidden States: Pre-Generation Probing and Repair Geometry
- Title(参考訳): LLM隠れ状態における符号の正確性信号:プレジェネレーション・プロービングと修復幾何学
- Authors: Carlo Di Cicco,
- Abstract要約: モデルのファーストアタプティブコードの正しさは、プロンプト-ファイナル隠れ状態から線形にデオード可能である。
モデルが失敗した最初の試みを修復しようとするケース236では、失敗した試みからその修復への隠れ状態シフトが統計的に検出可能なコントラスト方向をもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models encode rich information in their hidden states. This work asks whether code correctness is legible in the hidden states of Qwen3-4B-Instruct-2507, before it generates and as it repairs a failed attempt, studied on 444 LiveCodeBench tasks. It reports two findings connected by a single confound-control tool: residualization. First, the correctness of the model's first-attempt code is linearly decodable from the prompt-final hidden state, with a leakage-free held-out AUC of 0.931 +/- 0.008 across 50 outer splits. After the linear effect of prompt length is removed from each hidden state dimension, the probe still reaches 0.911 +/- 0.010, well above a prompt-length baseline of 0.754 +/- 0.014. Second, on 236 cleaned cases where the model attempts to repair a failed first attempt, the hidden state shift from the failing attempt to its repair carries a statistically detectable contrastive direction, significant on both a magnitude and a split-half test against label-shuffled nulls. This direction does not survive a conditional residualization against repair-context covariates that differ between successful and failed repairs, marking it as a correlate of repair success driven by the repair context rather than an isolated repair-comprehension feature. The probe layer is selected by nested cross-validation, and the same residualization approach that upholds the pre-generation correctness result overturns the repair-direction interpretation. The contribution is as much methodological as empirical: a diagnostic honest enough to report a negative result alongside a positive one.
- Abstract(参考訳): 大規模言語モデルは、隠れた状態の豊富な情報をエンコードする。
この研究は、Qwen3-4B-Instruct-2507の隠れ状態において、コード正しさが正当かどうかを問う。
また,1つのコンファウンドコントロールツールで繋がった2つの発見を報告した。
1つ目は、50の外側分割で0.931 +/- 0.008のリークフリーホールドアウトAUCで、モデルのファーストアタプティブコードの正しさを、プロンプト-ファイナル隠れ状態から線形に除くことができることである。
それぞれの隠れ状態次元からプロンプト長の線形効果が取り除かれた後も、プローブは0.911 +/- 0.010に達し、プロンプト長のベースラインは 0.754 +/- 0.014 である。
第二に、失敗した最初の試みを修復しようとする236のクリーンケースでは、失敗した試みからその修復への隠れ状態シフトは統計的に検出可能なコントラスト方向を持ち、これはラベルシャッフルヌルに対する大きさと分割半検の両方に有意である。
この方向は、修理が成功したことと失敗したことの異なる補修コンテキスト共変体に対する条件付き残差化を乗り越えず、単独の補修理解機能ではなく、補修コンテキストによって引き起こされた補修成功の相関であることを示す。
プローブ層はネストしたクロスバリデーションにより選択され、前世代の正しさを裏付ける同じ残留化アプローチが補修方向解釈を覆す。
この貢献は経験的と同じくらい方法論的であり、肯定的な結果とともに否定的な結果を報告できるほど正直な診断である。
関連論文リスト
- Conformal calibration and look-elsewhere effect in anomaly detection for new-physics searches [0.0]
機械学習による異常検出は、新しい物理学の探索を再構築している。
本稿では,共形予測に基づく校正層を提案する。
論文 参考訳(メタデータ) (2026-06-11T18:00:02Z) - Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal [6.908637308550535]
思考の連鎖は、生成された推論がモデルの内部計算を反映していると仮定する。
この仮定は、特定の測定可能な方法で間違っていることを示す。
モデルは自身の推論エラーを内部的に検出するが、その信頼性を外部に表現する。
論文 参考訳(メタデータ) (2026-05-10T12:26:46Z) - Exactness Matters for Physical Rule Enforcement [4.230349220081444]
より強い物理ルールの執行がいつ信頼できるか、いつそれが流通シフトの源となるかは、まだ不明である。
この問題は作用素の正確性(すなわち、補修写像が対象多様体上の恒等写像であるかどうか)を通して研究する。
制御ミスマッチ、スクリーニングされたクリーンアップ、アダプティブゲーティング、および外部バックボーンチェックは、最適な近似登録操作ポイントが生またはほぼ同一であることを示す。
論文 参考訳(メタデータ) (2026-05-08T07:59:59Z) - A Testable Certificate for Constant Collapse in Teacher-Guided VAEs [3.812090634738739]
変異型オートエンコーダの後方崩壊は、しばしばその症状によって診断される。
本研究では, 具体的故障モード, 入力非依存定数崩壊について検討し, 正確なしきい値が認められたことを示す。
論文 参考訳(メタデータ) (2026-05-07T07:48:41Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Mean-Shifted Contrastive Loss for Anomaly Detection [34.97652735163338]
そこで本研究では,集中損失法とコントラスト損失法の両方の障害モードを克服できる新たな損失関数を提案する。
私たちの改善は、$textitMean-Shifted Contrastive Loss$に基づいて、新しい異常検出アプローチをもたらします。
提案手法は,ROC-AUC$9.5%を含む複数のベンチマークにおいて,最先端の異常検出性能を実現する。
論文 参考訳(メタデータ) (2021-06-07T17:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。