論文の概要: Output Vector Editing for Memorization Mitigation in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.18767v1
- Date: Wed, 17 Jun 2026 07:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.043229
- Title: Output Vector Editing for Memorization Mitigation in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるメモリ化緩和のための出力ベクトル編集
- Authors: Ahmad Dawar Hakimi, Kaiwei Lei, Isabelle Augenstein, Hinrich Schütze,
- Abstract要約: 大規模な言語モデルは、トレーニングデータからシーケンスを記憶し、再現し、プライバシ、著作権、セキュリティリスクを生み出す。
既存のニューロンレベルの緩和方法は、ニューロンの活性化をゼロにすることで編集を等しくするが、活性化はニューロンが関与するかどうかのみを制御する。
記憶継続に責任を負うニューロンの小さな集合を探索する制約最適化編集である出力ベクトル編集を提案する。
- 参考スコア(独自算出の注目度): 68.30351930772788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models memorize and reproduce sequences from their training data, creating privacy, copyright, and security risks. Existing neuron-level mitigation methods equate editing with zeroing out neuron activations, but the activation only controls whether a neuron engages; the output vector is what writes to the residual stream and, through superposition, encodes multiple features. We propose output vector editing, a constrained-optimization weight edit that locates a small set of MLP neurons responsible for a memorized continuation and minimally modifies their output vectors to introduce a distractor in vocabulary space, redirecting their residual-stream contributions while leaving activations unchanged. Evaluating on four models from 360M to 7B parameters (SmolLM-360M, OLMo-1B, OLMo-7B, Llama2-7B), we center on OLMo-7B (whose open weights and pretraining corpus enable systematic mining) and mine 6831 memorized sequences, achieving up to 87.9% suppression. The 2.7$\times$ gap over zero ablation on the same located neurons shows the suppression comes from the output-vector edit, not localization alone. Four edit modes span a spectrum from aggressive suppression to minimal redirection; in ensemble they cover 96.5% of memorized sequences, while our recommended single-mode configuration reaches 81.5% with no catastrophic locality failures. We further identify a mechanistic boundary at ${\sim}14%$ of sequences unreachable by MLP-only editing; while these failures are not attention-driven overall, ablating the top contributing attention heads recovers 60--64% of them, with stronger recovery on continuations that copy tokens from the prefix, positioning attention as a complementary fallback rather than a primary mechanism. Edit mode ordering and the success-locality trade-off transfer across all four models, with success rates scaling with model size rather than family.
- Abstract(参考訳): 大規模な言語モデルは、トレーニングデータからシーケンスを記憶し、再現し、プライバシ、著作権、セキュリティリスクを作成する。
既存のニューロンレベルの緩和法は、神経細胞の活性化をゼロにすることで編集を等しくするが、活性化はニューロンが関与するかどうかを制御しているだけであり、出力ベクトルは残留ストリームに書き込むもので、重ね合わせによって複数の特徴をコード化する。
本稿では,記憶継続に責任を負うMLPニューロンの小さな集合を探索し,その出力ベクトルを最小限に調整して語彙空間に散逸器を導入し,残ストリームの寄与をリダイレクトし,アクティベーションを一定に保ったままにしておくことを目的とした,制約最適化重み編集である出力ベクトル編集を提案する。
360Mから7Bパラメータ (SmolLM-360M, OLMo-1B, OLMo-7B, Llama2-7B) の4つのモデルの評価を行い, OLMo-7B(オープンウェイトとプレトレーニングコーパスが体系的なマイニングを可能にする)と6831の暗記シーケンスを抽出し, 最大87.9%の抑制を実現した。
同じ位置にあるニューロン上のゼロアブレーションに対する2.7$\times$ギャップは、ローカライゼーションのみではなく、出力ベクトル編集による抑制であることを示している。
4つの編集モードは、攻撃的な抑制から最小限のリダイレクトまでのスペクトルにまたがっており、アンサンブルでは96.5%の暗記シーケンスをカバーし、我々の推奨シングルモード構成は81.5%に達し、壊滅的な局所性障害は発生しない。
さらに、MLPのみの編集で到達不能なシーケンスの${\sim}14%のメカニカルバウンダリを識別するが、これらの障害は注意駆動によるものではなく、トップコントリビューションのアテンションヘッドが60~64%を回復し、プレフィックスからトークンをコピーする継続を強く回復し、プライマリメカニズムよりも補完的なフォールバックとして注意を向ける。
編集モードの順序付けと、成功-局所性のトレードオフは、4つのモデルすべてで行われ、成功率は家族ではなくモデルサイズでスケーリングされる。
関連論文リスト
- Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs [52.149036302760386]
大規模な言語モデルは、プロンプトによって引き起こされるシークレットを、流動的で良心的な出力にエンコードするように微調整することができる。
近年の研究では、内部の活性化から秘密を回収する線形プローブによる検出を提案する。
この防御は体系的に回避できるが,対象とするデータレベルの介入によって検出性が回復可能であることを示す。
論文 参考訳(メタデータ) (2026-06-08T12:27:11Z) - Perturbation Probing: A Two-Pass-per-Prompt Diagnostic for FFN Behavioral Circuits in Aligned LLMs [9.127363793428119]
摂動探索は、大規模言語モデルにおけるFFNニューロンに対するタスク特異的因果仮説を生成する。
8つの動作回路、13のモデル、および4つのアーキテクチャファミリにまたがって、LLMの動作を整理する2つの回路構造を同定する。
論文 参考訳(メタデータ) (2026-04-30T04:13:33Z) - ProjLens: Unveiling the Role of Projectors in Multimodal Model Safety [54.4092272526747]
MLLM(Multimodal Large Language Models)は、クロスモーダルな理解と生成において大きな成功を収めていますが、そのデプロイは重大な安全性の脆弱性によって脅かされています。
本稿では,MLLMのバックドアを復号化するための解釈可能性フレームワークであるProjLensを提案する。
論文 参考訳(メタデータ) (2026-04-21T04:52:38Z) - Breaking the Illusion of Identity in LLM Tooling [0.0]
既存の緩和策は、システマティックにデプロイ可能な制約セット出力レジスタを提供していません。
本稿では,文書化された言語機構を対象とする7つのアウトプットサイドルールを提案する。
論文 参考訳(メタデータ) (2026-04-08T09:15:14Z) - NeuReasoner: Towards Explainable, Controllable, and Unified Reasoning via Mixture-of-Neurons [25.628859853488862]
我々はNeuReasonerについて紹介する。NeuReasonerはニューロン(MoN)によって駆動される統一的推論フレームワークである。
NeuReasonerは最大27.0%のパフォーマンス向上を実現し、トークン消費を19.6% 63.3%削減した。
論文 参考訳(メタデータ) (2026-04-03T11:20:16Z) - Surgical Repair of Collapsed Attention Heads in ALiBi Transformers [0.0]
変換言語モデルのBLOOMファミリーにおいて,系統的な注意崩壊病理を同定する。
ALiBiの位置エンコーディングは31-44%のアテンションヘッドを、ほぼ完全にシーケンス開始トークンに出席させる。
ゼロ出力プロジェクションを用いた標的Q/K/V再初期化について検討した。
論文 参考訳(メタデータ) (2026-03-10T12:57:49Z) - Self-Purification Mitigates Backdoors in Multimodal Diffusion Language Models [74.1970982768771]
確立されたデータポゾンパイプラインは,MDLMにバックドアを埋め込むことに成功した。
拡散自己浄化(Diffusion Self-Purification)と呼ばれるMDLMのバックドア防御フレームワークについて紹介する。
論文 参考訳(メタデータ) (2026-02-24T15:47:52Z) - A Few Bad Neurons: Isolating and Surgically Correcting Sycophancy [7.405817106579332]
大規模言語モデルの振る舞いアライメントは、広範囲の微調整によって達成されることが多い。
本研究では,特定の行動に最も責任があるニューロンのみを特定し,更新するアライメント手法を提案する。
以上の結果から,スパークでニューロンレベルの更新は,フルモデルファインチューニングに代わる,スケーラブルで高精度な代替手段であることがわかった。
論文 参考訳(メタデータ) (2026-01-26T20:20:13Z) - ShortcutBreaker: Low-Rank Noisy Bottleneck with Global Perturbation Attention for Multi-Class Unsupervised Anomaly Detection [59.89803740308262]
ShortcutBreakerはMUADタスクのための新しい統合された機能再構成フレームワークである。
ショートカットの問題に対処する2つの重要なイノベーションが特徴だ。
提案手法は,4つのデータセットに対して,99.8%,98.9%,90.6%,87.8%の顕著な画像レベルのAUROCを実現する。
論文 参考訳(メタデータ) (2025-10-21T06:51:30Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。