論文の概要: When Does Routing Become Interpretable? Causal Probes on Block Attention Residuals
- arxiv url: http://arxiv.org/abs/2606.13168v1
- Date: Thu, 11 Jun 2026 10:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.725115
- Title: When Does Routing Become Interpretable? Causal Probes on Block Attention Residuals
- Title(参考訳): 経路はいつ解釈可能か? - ブロック注意残余に関する因果探究
- Authors: Aydin Javadov,
- Abstract要約: Block Attention Residuals (Block AttnRes) は、固定された加法残基を以前の深度ソース表現よりも学習されたソフトマックスで置き換える。
このような露出が機械的解釈に十分かどうかを問う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Block Attention Residuals (Block AttnRes) by replace fixed additive residuals with a learned softmax over earlier depth-source representations, surfacing cross-layer routing as an inspectable tensor in the forward pass. This is a tempting interpretability target: information flow normally inferred indirectly is now directly observable. We ask whether such exposure suffices for mechanistic interpretation. We probe two same-scale ($0.6$B) Block AttnRes checkpoints under identical routing-ablation interventions: a vanilla Qwen3 inference-wrapped through a deterministic recency-bias schedule that the codebase admits as a routing-equivalent loading path, and a Block AttnRes Qwen3 trained from scratch with routing as part of optimisation. The wrapped baseline's routing weights are content-independent and reproduce the schedule's analytic prediction. The trained AttnRes checkpoint instead exhibits three localised routing motifs: an embedding-source pathway through early-layer MLP, a current-state pathway through early-layer attention and MLP, and an older-history pathway through late-layer attention. Beyond this stratification, we find a sharp dissociation between average routing mass and causal importance: in both sublayers, the largest mass slice is not the largest causal contribution, and one source family carries appreciable mass with no detectable causal role under intervention. Architectural exposure of routing is therefore necessary but not sufficient for mechanistic interpretation: structured depth routing emerges only when routing has been part of training, and even then, descriptive routing summaries should be treated as candidate hypotheses to be tested by causal interventions, not as evidence of mechanism in their own right.
- Abstract(参考訳): Block Attention Residuals (Block AttnRes) は、フォワードパスの検査可能なテンソルとしてクロス層ルーティングを上向きに、事前の深度ソース表現に対して学習したソフトマックスで、固定加算残差を置き換えることにより、ブロックアテンション残差(Block AttnRes)である。
情報フローは通常間接的に推論されるが、現在では直接観測可能である。
このような露出が機械的解釈に十分かどうかを問う。
我々は、同一のルーティング-アブレーション介入の下で、2つの同じスケール(0.6$B)のBlock AttnResチェックポイントを探索する: コードベースがルーティング等価なロードパスとして認める決定論的回帰バイアススケジュールを通じて、バニラQwen3推論をラップし、最適化の一部としてルーティングをスクラッチからトレーニングしたBlock AttnRes Qwen3。
ラップされたベースラインのルーティングウェイトは内容に依存しず、スケジュールの分析予測を再現する。
訓練されたAttnResチェックポイントは3つの局所的な経路のモチーフを示す: 初期層へのMLPの埋め込み経路、初期層への注意とMLPの現在の経路、後期層への注意による古い歴史経路である。
この階層化の他に、平均的なルーティング質量と因果的重要性の間に急激な解離が見られ、両方のサブレイヤーにおいて、最大のマススライスが最大の因果的寄与ではなく、1つのソースファミリーが干渉下で検出可能な因果的役割を伴わない評価可能な質量を運ぶ。
構造化された深さのルーティングは、ルーティングがトレーニングの一部であった場合にのみ出現し、それでも、説明的なルーティングのサマリーは、自身の権利のメカニズムの証拠としてではなく、因果的介入によってテストされる候補仮説として扱われるべきである。
関連論文リスト
- How Does Reasoning Flow? Tracing Attention-Induced Information Flow for Targeted RL in LLMs [52.712343092801326]
FlowTracerは、注意重み付き非巡回グラフ上で回答対象の推論フローをトレースするRLフレームワークである。
フロースループットによってトークンをスコアし、長期依存を仲介するハイインパクトなハブとアグリゲーションチェックポイントを明らかにする。
これらの重要度はトークンレベルの報酬を形成するために使用され、学習信号は正しい回答に向けて情報をルーティングするトークンに正確に焦点を合わせることができる。
論文 参考訳(メタデータ) (2026-06-09T09:56:51Z) - From Sampled Outcomes to Capability Distributions: Rethinking Supervision for LLM Routing [79.19755531338872]
既存のルーティングメソッドは、クエリに対するモデルの単一応答を、トレーニングの能力ラベルとして扱う。
この仮定はルーティング管理にシステマティックノイズを導入し、学習されたルーティングポリシーの信頼性を低下させることを示す。
本稿では, DARS(Distribution-Aware Routing Supervision)を提案する。
論文 参考訳(メタデータ) (2026-06-05T05:42:00Z) - Meta-Attention: Bayesian Per-Token Routing for Efficient Transformer Inference [0.0]
本稿では,各トークンを最も適切な注意戦略に動的にルーティングするフレームワークであるMeta-Attentionを提案する。
決定論的または事前自由な学習ルーティングを使用する以前のルーティングアプローチとは異なり、Meta-Controllerは、トークン毎のメカニズム選択を後部推論として扱う。
この設計は、ソフトからハードへのルーティング遷移を制御し、アドホックな負荷分散損失を伴わずにルーティング崩壊を緩和し、より良い計算性能のトレードオフをもたらす、原則化されたルーティング不確実性推定を生成する。
論文 参考訳(メタデータ) (2026-05-27T12:21:28Z) - Route Before Retrieve: Activating Latent Routing Abilities of LLMs for RAG vs. Long-Context Selection [57.3886742625188]
Pre-Routeは、応答前に構造化推論を実行するプロアクティブなルーティングフレームワークである。
本研究は, (i) LLMは, ガイドラインを確実に適用可能な遅延ルーティング能力を有すること, (ii) 線形プローブにより, 表現空間における最適ルーティングの分離性を高めること, (iii) 蒸留により, この推論構造を, 軽量展開のためのより小さなモデルに伝達すること,の3つの重要な知見を示す。
論文 参考訳(メタデータ) (2026-05-11T09:10:55Z) - How Alignment Routes: Localizing, Scaling, and Controlling Policy Circuits in Language Models [0.0]
本稿では,アライメント学習言語モデルにおけるポリシールーティング機構のローカライズを行う。
中間層アテンションゲートは検出された内容を読み出し、深いヘッドをトリガーし、信号が拒絶に向かって押し上げられる。
論文 参考訳(メタデータ) (2026-04-06T03:20:37Z) - Route-Induced Density and Stability (RIDE): Controlled Intervention and Mechanism Analysis of Routing-Style Meta Prompts on LLM Internal States [10.639846833695806]
我々は,アクティベーション空間,(C2)ドメインキーワードの注意,(C3)予測エントロピーと意味的変動による出力安定性を定量化する。
ルーティング設計の校正と不確実性推定のための診断プローブとしてRIDEを提案する。
論文 参考訳(メタデータ) (2026-03-31T03:19:36Z) - Breaking the Chain: A Causal Analysis of LLM Faithfulness to Intermediate Structures [58.54426802984356]
本稿では,出力を因果的に決定する因果評価プロトコルを提案する。
8つのモデルと3つのベンチマークで、モデルは自身の中間構造と自己整合しているように見えるが、最大60%のケースに介入した後に予測を更新できない。
全体として、スキーマ誘導パイプラインの中間構造は、安定した因果メディエータよりも影響のある文脈として機能する。
論文 参考訳(メタデータ) (2026-03-17T13:01:44Z) - TraceRouter: Robust Safety for Large Foundation Models via Path-Level Intervention [44.64827167753535]
有害なセマンティクスは分散層間回路として機能し、局所的な介入が不安定で実用性に有害である。
我々は,不特定意味論の因果伝播回路をトレースし,切断するパスレベルフレームワークである textbfTrace を提案する。
トレースは最先端のベースラインを著しく上回り、敵の堅牢性と汎用性とのトレードオフが優れている。
論文 参考訳(メタデータ) (2026-01-29T15:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。