論文の概要: Exposing the Illusion of Erasure in Knowledge Editing for LLMs
- arxiv url: http://arxiv.org/abs/2606.23276v1
- Date: Mon, 22 Jun 2026 12:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:54:28.509863
- Title: Exposing the Illusion of Erasure in Knowledge Editing for LLMs
- Title(参考訳): LLMの知識編集における消去のイライラ
- Authors: Advik Raj Basani, Anshuman Chhabra,
- Abstract要約: 我々は,知識編集(KE)が,LLMにおける特定の事実を,コストのかかる再学習なしに更新するためのフロンティアとして登場したことを示す。
低ランク更新は既存の知識を上書きするのではなく、モデル表現空間内で再配布することを示す。
損失景観の分析により、編集された知識は摂動に非常に敏感な狭く異方性のある領域にあることが明らかになった。
- 参考スコア(独自算出の注目度): 8.788531432978802
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Knowledge Editing (KE) has emerged as a frontier for updating specific facts in LLMs without costly retraining, but its reliability and underlying mechanisms remain poorly understood. In this work, we examine KE from an adversarial elicitation perspective, revealing that edited knowledge is often not fully erased and continues to surface, with consistent failures observed across diverse model architectures. To explain this behavior, we conduct a mechanistic analysis of popular KE methods. We show that low-rank updates do not overwrite existing knowledge but instead redistribute it within the model's representation space. Furthermore, we find that these methods act as targeted suppression mechanisms that reduce the likelihood of expressing original facts, rather than removing them from the model. Analysis of the loss landscape reveals that edited knowledge lies in narrow, anisotropic regions that are highly sensitive to perturbations, making them highly vulnerable to indirect prompting and adversarial attacks. By exposing these profound architectural vulnerabilities, our work proves that KE algorithms are inherently bypassable and motivates a fundamental reevaluation of how we deploy post-hoc updates in several LLM applications.
- Abstract(参考訳): 知識編集(KE)は、LLMの特定の事実を高価に再トレーニングすることなく更新するためのフロンティアとして登場したが、その信頼性と基盤となるメカニズムは未だよく分かっていない。
本研究は,KEを敵対的推論の観点から検討し,編集された知識が完全に消去されず,様々なモデルアーキテクチャで一貫した失敗を伴って表面化され続けることを明らかにする。
この振る舞いを説明するために、一般的なKE手法の力学解析を行う。
低ランク更新は既存の知識を上書きするのではなく、モデル表現空間内で再配布することを示す。
さらに, これらの手法は, モデルから除去するのではなく, 本来の事実を表現できる可能性を低減するために, 標的となる抑制機構として機能することがわかった。
失われた風景の分析によると、編集された知識は摂動に非常に敏感な狭い異方性領域にあり、間接的な衝動や敵の攻撃に対して非常に脆弱である。
これらの重大なアーキテクチャ上の脆弱性を明らかにすることで、KEアルゴリズムは本質的にバイパス可能であることを証明し、いくつかのLLMアプリケーションにポストホックアップデートをデプロイする方法の根本的な再評価を動機付けています。
関連論文リスト
- KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models [26.418820118903852]
大規模言語モデル(LLM)は、多種多様なコーパスの事前学習を通じて大量の知識を得る。
LLMのアンラーニングは、トレーニングデータにおける機密性、著作権、有害なコンテンツに関連するリスクを減らすための有望なテクニックである。
本研究では,LLMの知識レベルでの効果的な学習を実現するために,Deviating representAtion (KUDA) を用いた知識未学習を提案する。
論文 参考訳(メタデータ) (2026-02-22T17:16:49Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - Surgical Knowledge Rewrite in Compact LLMs: An 'Unlearn-then-Learn' Strategy with ($IA^3$) for Localized Factual Modulation and Catastrophic Forgetting Mitigation [0.0]
本稿では,大規模言語モデルにおける正確な知識編集のための新しい「未学習学習戦略」を紹介し,評価する。
2段階のアプローチは、競合する事実を符号化する原因となる特定の内部コンポーネントを特定し、ターゲットとする初期回路ローカライゼーションフェーズによって実現される。
論文 参考訳(メタデータ) (2025-08-09T18:48:25Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。