論文の概要: Can Editing 1 Neuron Fix Repetition Loops in LLMs?
- arxiv url: http://arxiv.org/abs/2606.13705v1
- Date: Tue, 09 Jun 2026 21:20:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.504583
- Title: Can Editing 1 Neuron Fix Repetition Loops in LLMs?
- Title(参考訳): LLMにおける1ニューロンの繰り返しループの編集は可能か?
- Authors: Aristotelis Lazaridis, Aman Sharma, Dylan Bates, Brian King, Vincent Lu, Jack FitzGerald,
- Abstract要約: Gemma 4の命令チューニングモデルは再現可能な失敗を共有している。
これらのループは95%の速度で発生し、即時リワードを継続する。
本稿では,この動作が重み編集によって除去できるほど局所化されているかを検討する。
- 参考スコア(独自算出の注目度): 5.310892696470208
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Yes. Can it cure doom loops? Probably not. The Gemma 4 instruction-tuned models share a reproducible failure: on long factual enumeration prompts, such as listing every episode of a TV series, the 88 IAU constellations, or the 151 original Pokemon, they collapse into repetition, either a tight verbatim loop or a list whose entries decay onto a single answer. These loops occur at rates as high as 95% and survive prompt rewording, inference-engine changes, and most sampling adjustments. In this paper we explore whether this behavior is localized enough to remove by weight edits. To localize the cause, we use per-layer ablation and per-neuron attribution, then confirm the strongest candidates with full-generation sweeps. The loops trace to a small set of MLP neurons (or, in the 26B-A4B Mixture-of-Experts model, a few routed experts) which we suppress with static weight edits. These "surgeries" can be as small as a single sign-inverted neuron (in the E2B model). The size of the effective edits grows with model scale, but in all cases, the loop patterns can be addressed at normal generation budgets while preserving general-purpose benchmark scores. However, the edits do not solve everything: we also study longer thinking budgets, where the two larger models most visibly enter doom looping, i.e. a non-convergent regime in which the model self-corrects in circles over a fact it cannot recall, exhausting the budget without committing to a final answer. We show this residual failure is reduced but not eliminated by the same edits, and argue it is fundamentally a knowledge-precision problem rather than a removable circuit; weight surgery can delete a loop, but it cannot supply a missing fact. Our results are both a feasibility demonstration, that is, evidence that a concrete generation pathology can be localized to a few parameters and edited out, and a delineation of where that approach stops.
- Abstract(参考訳): はい。
ドゥームループを治せるか?
おそらくそうではない。
Gemma 4では、テレビシリーズ、88のIAU星座、または151のPokemonの全てのエピソードを列挙するなど、長い実例列挙のプロンプトにおいて、厳密な動詞のループまたは一つの答えにエントリーが減衰するリストの繰り返しに崩壊する。
これらのループは95%の速度で発生し、即時リワード、推論エンジンの変更、ほとんどのサンプリング調整を継続する。
本稿では,この動作が重み編集によって除去できるほど局所化されているかを検討する。
原因をローカライズするために、我々は階層単位のアブレーションとニューロン単位のアトリビューションを使用し、その後、フルジェネレーションスイープで最も強い候補を確認する。
ループはMLPニューロンの小さなセット(または26B-A4Bmixture-of-Expertsモデル、いくつかのルート付きエキスパート)に遡り、静的な重み付けで抑制する。
これらの「シュガージー」はシングルサイン反転ニューロン(E2Bモデル)と同じくらい小さい。
有効編集のサイズはモデルスケールで大きくなるが、すべての場合、一般的なベンチマークスコアを維持しながら、通常の生成予算でループパターンに対処できる。
しかし、編集は、全てを解決しない:我々はまた、より長い思考予算、すなわち2つの大きなモデルが最も視覚的にドゥームループに入る、すなわち、モデルがリコールできないという事実を自己修正する非収束的な体制を研究し、最終的な答えをコミットすることなく予算を消耗する。
この残余故障は、同じ編集によって排除されるのではなく、基本的には取り外し可能な回路というよりは知識精度の問題であると主張し、重み付け手術はループを削除できるが、欠落した事実を供給できない。
本研究の結果は, 具体的生成病理がいくつかのパラメータに局所化され, 編集され得ることの実証であり, そのアプローチがどこで止まるかの詳細な説明である。
関連論文リスト
- Extreme Low-Bit Inference in Reasoning Models: Failure Modes and Targeted Recovery [40.94400211806987]
生成プロセスの不安定性はトークン数を膨らませるため、2ビットのアグレッシブ推論がエンドツーエンドのスピードアップを達成できないことを示す。
Qwen3推論モデルの完全な推論トレースを数学的および常識的なベンチマークで分析する。
以上の結果から, 異常を制御可能な世代病理として扱うと, 極端に低ビット推論が現実的になることがわかった。
論文 参考訳(メタデータ) (2026-06-01T10:04:09Z) - Dopamine: Brain Modes, Not Brains [0.0]
しきい値効率の良い微細チューニング(PEFT)法は、小さな重み空間更新を追加することで、大きな事前訓練されたモデルに適応する。
基本重量を凍結し,ニューロン単位のエンフェインとエンフェインを学習する,シンプルなアクティベーション空間PEFT技術である Methodname を提案する。
論文 参考訳(メタデータ) (2026-02-12T08:52:09Z) - Nudging the Boundaries of LLM Reasoning [77.26972440427285]
現在のオンライン強化学習アルゴリズムは、モデルに「解決不可能」な問題から学べない。
自己生成ヒントを用いてLLM推論の上界を推し進める「看護」手法であるNuRLを提案する。
NuRLは、テスト時間スケーリングを補完しながら、6つのベンチマークと3つのモデルで一貫した改善を実現している。
論文 参考訳(メタデータ) (2025-09-30T02:01:40Z) - O1-Pruner: Length-Harmonizing Fine-Tuning for O1-Like Reasoning Pruning [98.3430004984531]
精度を維持しながら推論オーバーヘッドを最小限に抑えるため,Longth-Harmonizing Fine-Tuning (O1-Pruner)を提案する。
私たちのコードはもうすぐhttps://github.com/StarDewXXX/O1-Pruner.comで公開されます。
論文 参考訳(メタデータ) (2025-01-22T01:35:11Z) - Find the Lady: Permutation and Re-Synchronization of Deep Neural
Networks [12.206173702556773]
ディープニューラルネットワークは、冗長な複数の対称的、均質な解によって特徴づけられる。
我々は、置換ニューロンの順序を再同期する手法を前進させる。
モデルの整合性を損なう通常の方法の理論的および実践的な証拠を提供し、その結果、それに対応する解が導かれる。
論文 参考訳(メタデータ) (2023-12-19T12:57:14Z) - UPSCALE: Unconstrained Channel Pruning [13.811940795083347]
我々は任意のプルーニングパターンでモデルをプルーする汎用アルゴリズムを開発した。
プレナードモデルに対するイメージネットの精度を平均2.1ポイント向上する。
論文 参考訳(メタデータ) (2023-07-17T18:31:25Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z) - Aging with GRACE: Lifelong Model Editing with Discrete Key-Value
Adaptors [53.819805242367345]
本稿では,展開モデルのストリーミングエラーにスポットフィックスを実装した生涯モデル編集手法であるGRACEを提案する。
GRACEはトレーニング済みモデルの潜在空間に新しいマッピングを記述し、モデルの重みを変更することなく、個別にローカルな編集のコードブックを作成する。
T5,BERT,GPTモデルを用いた実験では,非表示入力に一般化しつつ,編集および保持におけるGRACEの最先端性能を示す。
論文 参考訳(メタデータ) (2022-11-20T17:18:22Z) - Fast Model Editing at Scale [77.69220974621425]
MEND(Gradient Decomposition)を用いたモデルエディタネットワークを提案する。
MENDは、所望の入力出力ペアを使って、訓練済みのモデルに高速で局所的な編集を行う、小さな補助的な編集ネットワークの集合である。
MENDは100億以上のパラメータモデルであっても、1日以内で1つのGPUでトレーニングすることができる。
論文 参考訳(メタデータ) (2021-10-21T17:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。