論文の概要: When Attribution Patching Lies: Diagnosis and a Second-Order Correction
- arxiv url: http://arxiv.org/abs/2606.09899v1
- Date: Fri, 05 Jun 2026 05:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.02911
- Title: When Attribution Patching Lies: Diagnosis and a Second-Order Correction
- Title(参考訳): 属性パッチが嘘をついた場合:診断と第2次補正
- Authors: Luyang Zhang, Jialu Wang,
- Abstract要約: 本研究は, 下流ネットワークの非直線性に起因する誤差が, パッチ成分の局所曲率よりも大きいことを示す。
この洞察は、(i)信頼できない見積もりを検出するための信頼性スコア、(ii)エラー境界がポテンシャル属性の誤特定を定量化すること、(iii)Hessian-vector-product correctが1つの後進パスで先行エラーを除去すること、の3つの実用的なツールをもたらす。
- 参考スコア(独自算出の注目度): 9.338965648455238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central goal of mechanistic interpretability is to identify which internal components causally drive a language model's behavior. Because these importance estimates serve as the evidence for identifying circuits, systematic errors can lead to the misidentification of the underlying mechanisms. While activation patching provides a gold-standard causal metric, its computational cost is prohibitive at scale. Practitioners instead rely on attribution patching, a gradient-based, first-order approximation whose reliability remains poorly understood. In this work, we characterize the source of this unreliability, demonstrating that the dominant error stems from the non-linearities in the downstream network rather than local curvature at the patched component. This insight yields three practical tools: (i) a reliability score to detect untrustworthy estimates, (ii) error bounds quantifying potential attribution mis-specifications, and (iii) a Hessian-vector-product (HVP) correction that eliminates the leading-order error with only one additional backward pass. In evaluations across five model families (124M-9B parameters) and both random-token and naturalistic (name-swap) perturbations, HVP is the only second-order correction feasible at larger scale, where standard baselines like Integrated Gradients become computationally prohibitive. In comparative experiments, a multi-step HVP variant matches or exceeds the accuracy of Integrated Gradients at significantly lower compute, outperforming prior second-order baselines. These improvements lead to higher-fidelity circuit recovery on standard benchmarks and support a Screen-Flag-Fix workflow that targets computational effort only toward the components flagged as unreliable.
- Abstract(参考訳): 機械的解釈可能性の中心的な目標は、どの内部コンポーネントが言語モデルの振る舞いを因果的に駆動するかを特定することである。
これらの重要な推定値が回路の同定の証拠となるため、体系的な誤りは基礎となるメカニズムの誤同定につながる可能性がある。
アクティベーションパッチは金標準因果距離を提供するが、その計算コストは大規模では禁じられている。
実践者は、信頼性の低い勾配に基づく一階述語近似である属性パッチに頼っている。
本研究では、この不確実性の源泉を特徴付け、パッチされたコンポーネントの局所曲率ではなく、下流ネットワークの非線形性に起因することを実証する。
この洞察は3つの実用的なツールを生み出します。
一 信頼できない見積もりを検出するための信頼性スコア
(二)潜在的な帰属の誤特定を定量化する誤差境界、及び
三 ヘッセンベクトル積(HVP)補正により、後進パスを1つ追加するだけで、先行順序誤差を除去する。
5つのモデルファミリ(124M-9Bパラメータ)とランダムトケンとナチュラル(名前-スワップ)の摂動に関する評価において、HVPは大規模において唯一の2階補正であり、積分勾配のような標準ベースラインは計算的に禁止される。
比較実験では、多段階のHVP変種は、より低い計算で積分勾配の精度と一致し、2階前のベースラインよりも優れる。
これらの改善により、標準ベンチマークでの高忠実度回路のリカバリが実現され、Screen-Flag-Fixワークフローがサポートされた。
関連論文リスト
- Tailoring Strictly Proper Scoring Rules for Downstream Tasks: An Application to Causal Inference [48.78219918881965]
本稿では,ダウンストリーム誤差メトリックの局所曲率をマッチングすることにより,タスク固有の厳密なスコアリングルールを導出するフレームワークを提案する。
これを平均処理効果 (ATE) 推定に適用し, 閉形式損失と対応する正準確率写像を導出する。
論文 参考訳(メタデータ) (2026-06-02T08:41:25Z) - Distributionally Robust Transfer Learning with Structurally Missing Covariates, with Application to Cross-National Cardiac Arrest Prediction [6.540707401117924]
本稿では,予測モデルを対象人口に転送するフレームワークとしてDRUM(underlineDtributionally underlineRobust underlineUn)を提案する。
DRUMは, より良い教師付き予測を行い, 臨床分類性能の向上を図っている。
論文 参考訳(メタデータ) (2026-05-22T20:53:04Z) - Discovery of Hidden Miscalibration Regimes [52.452902154360565]
モデルは何らかの入力を体系的に過信し、他人を過信することがある。
対応する誤校正分野を定義し,それを推定するための診断フレームワークを提案する。
提案手法は,入力空間のキャリブレーションを意識した表現を学習し,学習幾何学におけるカーネルの平滑化による符号付き局所的誤校正を推定する。
論文 参考訳(メタデータ) (2026-05-13T13:07:50Z) - Architecture-agnostic Lipschitz-constant Bayesian header and its application to resolve semantically proximal classification errors with vision transformers [0.0]
この研究は、アーキテクチャに依存しないリプシッツ・コンスタント・ベイジアンヘッダを示し、視覚変換器のような特徴抽出器に統合することができる。
また,不確実性と不確かさを誤分類率で捉えるための新しい指標と,適応型算術・平均融合方式を提案する。
モンテカルロサンプリングにより計算コストは上昇するが、事前に訓練されたバックボーンとのプラグ・アンド・プレイの互換性を提供する。
論文 参考訳(メタデータ) (2026-05-07T09:18:06Z) - Correct Answers from Sound Reasoning: Verifiable Process Supervision for Language Models [94.68358825189738]
本稿では,予測精度と推論品質を協調的に最適化する検証済み領域の学習後フレームワークを提案する。
我々は,エンジン信号に対して推論ステップを確定的に検証できる制御テストベッドであるチェスのVPSを評価する。
VPSは、推論品質を著しく向上させながら精度を保ち、勝利率エラーを最大30%削減し、一貫性をほぼ飽和状態に回復する。
論文 参考訳(メタデータ) (2026-04-03T15:19:46Z) - Overconfident Errors Need Stronger Correction: Asymmetric Confidence Penalties for Reinforcement Learning [17.384089089363382]
既存の手法が見落としている根本原因を同定する。
現在のアプローチでは、グループ内のすべての誤ったロールアウトを同一に扱う。
非対称信頼度を考慮した誤り罰(ACE)を提案する。
論文 参考訳(メタデータ) (2026-02-24T22:46:43Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。