論文の概要: Closure-Validated Circuit Discovery in Attention Heads: Co-activation Proposes, Ablation Disposes
- arxiv url: http://arxiv.org/abs/2606.09607v1
- Date: Mon, 08 Jun 2026 15:17:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.375128
- Title: Closure-Validated Circuit Discovery in Attention Heads: Co-activation Proposes, Ablation Disposes
- Title(参考訳): 注意頭におけるクロージャValidated Circuit Discovery:co-activation Proposes, Ablation Disposes
- Authors: Yongzhong Xu,
- Abstract要約: 解釈可能性(英: Interpretability)は、個々の単位ではなくコンポーネントのグループを基本対象として扱う傾向にある。
このような安価な信号が実際に注目回路を識別するかどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability increasingly treats groups of components, not individual units, as the basic object, and proposes to find them by clustering co-activation statistics. We ask whether such a cheap signal actually identifies an attention-head circuit. Adapting a sparse-autoencoder clustering recipe to attention heads -- but validating by causal ablation rather than reconstruction -- we cluster heads and then run a closure test: ablate the discovered community and compare per-example damage to matched-random controls. Across two dense 1B-scale models (Pythia 1B, OLMo 1B) and two input distributions, the communities pass closure. In a Mixture-of-Experts model (OLMoE-1B-7B), route-conditional clustering recovers a statistically real signal that nonetheless does not survive closure -- ablation improves loss, the wrong direction. Extending closure across training, attention-target selectivity and participation ratio decouple from function in both directions. We conclude that a cheap signal is a circuit proposal, not a confirmed circuit; closure is what separates them.
- Abstract(参考訳): 解釈可能性(Interpretability)は、個々の単位ではなくコンポーネントのグループを基本対象として扱い、コアクティベーション統計をクラスタリングすることでそれらを見つけることを提案する。
このような安価な信号が実際に注目回路を識別するかどうかを問う。
スパースオートエンコーダのクラスタリングレシピをアテンションヘッドに適用する -- しかし、再構築ではなく因果アブレーションによって検証することで -- をクラスタ化し、クロージャテストを実行します。
2つの密集した1Bスケールモデル(Pythia 1B, OLMo 1B)と2つの入力分布にまたがって、コミュニティはクロージャを通過する。
Mixture-of-Expertsモデル(OLMoE-1B-7B)では、ルート条件クラスタリングは、クロージャを生き残らない統計的にリアルな信号を復元する。
トレーニング全体におけるクロージャの拡張,注目対象の選択性,参加率を両方向の機能から分離する。
我々は、安価な信号は回路の提案であって、確認された回路ではないと結論付けている。
関連論文リスト
- Factored Diffusion Policies:Compositionally Generalized Robot Control with a Single Score Network [1.9171512266305901]
本稿では,各因子のNull-tokenドロップアウトを学習した共有拡散ネットワークについて述べる。
トラジェクトリチューブ証明書は、このスコアレベルをリバースタイムサンプリングODEとトラッキングコントローラを介してクローズドループ状態トラジェクトリチューブにチェーンする。
ドローンレースの実験は、一般化バウンドと証明書の両方を確認します。
論文 参考訳(メタデータ) (2026-05-21T15:13:27Z) - Group Cognition Learning: Making Everything Better Through Governed Two-Stage Agents Collaboration [13.299987551113809]
グループ認知学習(グループ認知学習、Group Cognition Learning、GCL)は、モダリティ固有の符号化の後に2段階のプロトコルを適用する、管理された協調パラダイムである。
GCLはモダリティの優位性と結合を緩和し、回帰ベンチマークと分類ベンチマークの両方で最先端の結果を確立する。
論文 参考訳(メタデータ) (2026-05-01T03:19:34Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - CIRCUS: Circuit Consensus under Uncertainty via Stability Ensembles [1.3011345529764784]
そこで本研究では,CIRCUSが閾値ローバストな「コア」回路を生成できることを示す。
Gemma-2-2BとLlama-3.2-1Bでは、厳密なコンセンサス回路はコンストラクタの結合よりも40倍小さい。
我々はさらに,合意を確定したノードが非合意制御と一致しない場合に,アクティベーションパッチの因果関係を検証した。
論文 参考訳(メタデータ) (2026-02-28T07:44:04Z) - A Unified View of Attention and Residual Sinks: Outlier-Driven Rescaling is Essential for Transformer Training [86.64715217940274]
外接線は正規化と共に機能する。
アウトリーチは、コントリビュータではなく、再スケール要因として役立ちます。
外乱は学習可能なパラメータに吸収されるか、明示的なゲート再スケーリングによって緩和される。
論文 参考訳(メタデータ) (2026-01-30T13:29:45Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Clustered Switchback Designs for Experimentation Under Spatio-temporal Interference [44.644520116360106]
我々は, 平均治療効果 (GATE) を推定し, 全単位を常に治療やコントロールに曝露した平均結果の差を推定した。
そこで我々は,単位をクラスタにグループ化し,時間ステップをブロックにグループ化する,クラスタ化されたスイッチバック設計を提案する。
良好なクラスタリングを許容するグラフに対して, トラッピングされたHorvitz-Thompson推定器が$tilde O(1/NT)$平均二乗誤差(MSE)を達成することを示す。
我々の結果は、citethu2022switchback、ugander2013graph、citetleung2022rateの結果を同時に一般化する。
論文 参考訳(メタデータ) (2023-12-25T01:00:58Z) - Implicit Sample Extension for Unsupervised Person Re-Identification [97.46045935897608]
クラスタリングは、時に異なる真のアイデンティティを混ぜ合わせたり、同じアイデンティティを2つ以上のサブクラスタに分割する。
本稿では,クラスタ境界周辺のサポートサンプルを生成するために,Implicit Sample Extension (OurWholeMethod)法を提案する。
提案手法の有効性を実証し,教師なしのRe-IDに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-04-14T11:41:48Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Improving Face Recognition by Clustering Unlabeled Faces in the Wild [77.48677160252198]
極値理論に基づく新しいアイデンティティ分離法を提案する。
重なり合うラベルノイズによる問題を大幅に低減する。
制御された設定と実際の設定の両方の実験は、我々のメソッドの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2020-07-14T12:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。