論文の概要: Evidence for feature-specific error correction in LLMs
- arxiv url: http://arxiv.org/abs/2606.24964v1
- Date: Tue, 23 Jun 2026 09:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.073422
- Title: Evidence for feature-specific error correction in LLMs
- Title(参考訳): LLMにおける特徴特異的誤差補正の証拠
- Authors: Francisco Ferreira da Silva, Stefan Heimersheim,
- Abstract要約: 理論は、重ね合わせにおける計算は、特権が一般的なものよりも方向を特徴付けるような誤り訂正を必要とすると予測している。
本稿では,アクティベーション摂動に基づく大規模言語モデルにおける誤り訂正実験を提案する。
- 参考スコア(独自算出の注目度): 0.7128080962281788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the features of large language models (LLMs) is a central goal of interpretability. LLMs are commonly assumed to use superposition to represent more features than they have dimensions. They may not only represent features in superposition but also perform computation in superposition. Theory predicts that computing in superposition requires error correction that privileges feature directions over generic ones, but this prediction has not been tested empirically. We propose an empirical test of error correction in LLMs based on activation perturbations. Perturbing residual-stream activations, we find that they are robust to small perturbations--forming activation plateaus consistent with error correction--but less robust along candidate feature directions ("pure" directions, constructed from contrastive prompt pairs) than along mixtures of two such directions, indicating that the pure directions are privileged. We quantify this privilegedness by modeling the perturbation effect as a function of the $L^p$-norm of its decomposition into feature components. For $p=2$ the response is a quadratic form with at most as many nonzero eigenvalues as the residual-stream dimension, which cannot privilege the many feature directions superposition requires. $p>2$ lifts this constraint and is consistent with feature-specific error correction. We find $p>2$ for contrastive, MELBO, and SAE-decoder directions, and $p\approx2$ for random and PCA directions (controls). These results replicate across Gemma-2-9B, Qwen3-1.7B, Llama-3.1-8B, Mistral-7B-v0.3, Aya-Expanse-8B, and Yi-1.5-9B. We further validate our method on a toy model of error correction with known ground-truth features, recovering $p>2$ for true feature directions, degrading toward $2$ as we rotate away from them.
- Abstract(参考訳): 大きな言語モデル(LLM)の機能を理解することは、解釈可能性の中心的な目標である。
LLMは一般に、次元よりも多くの特徴を表すために重ね合わせを用いると仮定されている。
それらは重ね合わせにおける特徴を表すだけでなく、重ね合わせにおける計算も行う。
理論では、重ね合わせの計算では、特権がジェネリックな方向を特徴付けるようなエラー補正が必要であるが、この予測は経験的にはテストされていない。
活性化摂動に基づくLLMにおける誤り訂正の実証試験を提案する。
残流活性化の摂動により、これらは小さな摂動に対して頑健であり、誤差補正と整合性を持つ活性化台地であることがわかったが、これら2つの方向の混合よりも、候補特徴方向(対照的なプロンプトペアから構築された純粋な方向)に沿っては頑健ではない。
我々は、摂動効果を特徴成分への分解の$L^p$-normの関数としてモデル化することで、この特権性を定量化する。
$p=2$ の場合、応答は2次形式であり、非零固有値は残差ストリーム次元と同じ程度であり、多くの特徴方向重畳を特権化できない。
この制約を解除する$p>2$は、機能固有のエラー訂正と一致している。
コントラスト、MELBO、SAEデコーダの方向は$p>2$、ランダムおよびPCAの方向(制御)は$p\approx2$となる。
これらの結果は、Gemma-2-9B、Qwen3-1.7B、Llama-3.1-8B、Mistral-7B-v0.3、Aya-Expanse-8B、Yi-1.5-9Bに複製される。
さらに,本手法を,既知の地絡特性による誤り訂正の玩具モデル上で検証し,真の特徴方向に対して$p>2$を回収し,それらから遠ざかるにつれて2$まで劣化することを示した。
関連論文リスト
- Diffusion Models Observe Only Gradients: A Geometric Perspective on Score Matching Errors [27.894241484593735]
L2$のスコア誤差は、限界分布品質の固有値ではないことを示す。
学習した拡散モデルは、目標分布を完全に一致させながら、大きな$L2$スコア誤差を発生させることができる。
論文 参考訳(メタデータ) (2026-06-04T13:53:38Z) - Bug or Feature$^2$: Weight Drift, Activation Sparsity and Spikes [53.726365933748134]
標準損失と正に偏りのある活性化関数の相互作用によって引き起こされる負の重みのドリフトを解析する。
79の構成にまたがるスパシティ・精度のトレードオフを特徴付けるとともに、$sim$70%のアクティベーション・スパシティよりも高い精度の崖を識別する。
論文 参考訳(メタデータ) (2026-05-17T21:29:20Z) - Representation Without Reward: A JEPA Audit for LLM Fine-Tuning [1.2691047660244335]
JEPA(Joint-embedding predictive Architectures)は、モデルが観測された出力よりも遅延表現を予測できるように訓練された時に、より有用な抽象化を学ぶべきであることを提案している。
自己回帰型言語モデルの微調整には、この原理はより厳密な要件を必要とする。
我々は、Llama-3.2-1B-Instruct LoRA を用いて、自然言語からレジェックス生成におけるその要件を検証した。
論文 参考訳(メタデータ) (2026-05-14T20:27:32Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - $D^2Prune$: Sparsifying Large Language Models via Dual Taylor Expansion and Attention Distribution Awareness [13.59262810896553]
大規模言語モデル(LLM)は、その膨大な計算要求のため、重大なデプロイメント上の課題に直面している。
本稿では,これらの制約に対処するため,新しいプルーニング法である$D2Prune$を提案する。
D2Prune$ は、様々な LLM でSOTA メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-14T05:17:35Z) - Hard Negative Sample-Augmented DPO Post-Training for Small Language Models [4.425580048633862]
本稿では,現実的な計算予算下での構造化エラーを対象とする,軽量で実用的なポストトレーニングパイプラインを提案する。
本研究では,候補解を6次元の誤差プロファイルに分解し,解釈可能な誤りと不条理のスコアに集約するコンパクトなMathVerifierを提案する。
実験により、検証対象の重み付きDPOは、バニラSFTや未重み付きDPOよりも目標となる改善をもたらすことが示された。
論文 参考訳(メタデータ) (2025-12-17T06:15:52Z) - RCPU: Rotation-Constrained Error Compensation for Structured Pruning of a Large Language Model [4.7618979083425215]
大規模言語モデル(LLM)の構造化プルーニングによる誤りに対処する回転制限補償法を提案する。
LLMは大量のデータセットに基づいて訓練され、表現空間に豊富なセマンティック知識を蓄積する。
実験では,提案手法をLLaMA-7Bに適用し,WikiText-2および複数の言語理解ベンチマーク上で評価する。
論文 参考訳(メタデータ) (2025-10-09T04:54:09Z) - Subtle Errors in Reasoning: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。
RISEは、事前定義された微妙なエラーをピボットトークンに注入する。
RISEの有効性を検証する実験では、Qwen2-7B-Instructでの優先学習により、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善され、トレーニングサンプルは4.5Kに留まった。
論文 参考訳(メタデータ) (2024-10-09T07:43:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。