論文の概要: MechLens: Late Crystallization of Factual Knowledge Explains Intervention Effectiveness in Language Models
- arxiv url: http://arxiv.org/abs/2606.07978v1
- Date: Sat, 06 Jun 2026 04:44:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.595832
- Title: MechLens: Late Crystallization of Factual Knowledge Explains Intervention Effectiveness in Language Models
- Title(参考訳): MechLens: Factual Knowledgeの後期結晶化 言語モデルにおける干渉効果の説明
- Authors: Xueping Gao,
- Abstract要約: 我々は後期結晶化を定量化する: 現実の知識は徐々に層を越えて現れるのではなく、最終層で突然「結晶化」する。
5つのモデルファミリーで26.8%--93.4%の正解が任意の中間層でトップ10の予測に入ることはない。
結果は一般性を確認し、調整されたレンズルールはプローブアーティファクトを出力する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding where LLMs store factual knowledge is critical for hallucination mitigation. We systematically quantify Late Crystallization: factual knowledge does not gradually emerge across layers but "crystallizes" abruptly at the final layers. Across five model families (Pythia, Gemma, Qwen2.5, Llama-3.1, Mistral; 0.5--14B), 26.8%--93.4% of correct answers never enter top-10 predictions at any intermediate layer, with late emergence (>80% depth) consistent across architectures. Cross-scale (Qwen2.5-14B) and cross-benchmark (MMLU: 98.2%) results confirm generality; tuned lens rules out probe artifacts. A sentiment-classification control (0.5% for Qwen vs. 85.9% factual; 2.0% for Mistral vs. 26.8%) confirms the phenomenon is specific to factual recall. Late Crystallization yields a crystallization-guided intervention principle: CAA outperforms DoLa on moderate-crystallization models (Llama, Mistral; p<0.001), with a directionally consistent reversal on high-crystallization Qwen (+25.4% vs. +15.5% MC1, p=0.069). LayerNorm ablation shows crystallization is intrinsic to the residual stream; LN scaling (x1.2) yields +11.8% MC1 with zero inference overhead. We further reveal a Computability-Memorization Spectrum: computable knowledge crystallizes earlier (layer 22.1/28) than memorized facts (28.0/28). We release MechLens supporting five model families.
- Abstract(参考訳): LLMが実際に知識を蓄積する場所を理解することは幻覚の緩和に不可欠である。
我々は後期結晶化を体系的に定量化する: 現実の知識は徐々に層を越えて現れるのではなく、最終層で突然「結晶化」する。
5つのモデルファミリー(Pythia, Gemma, Qwen2.5, Llama-3.1, Mistral; 0.5-14B)、26.8%--93.4%の正解がどの中間層でもトップ10の予測に入ることはない。
クロススケール (Qwen2.5-14B) とクロスベンチマーク (MMLU: 98.2%) の結果は、一般性を確認し、調整されたレンズルールでプローブアーティファクトを出力した。
感情分類コントロール(Qwen vs. 85.9%、Mistral vs. 26.8%)は、この現象が事実のリコールに特有のものであることを確認している。
CAAは、中程度の結晶化モデル(Llama, Mistral; p<0.001)でDoLaより優れ、高結晶化Qwen(+25.4% vs. +15.5% MC1, p=0.069)では方向的に一貫した反転を示す。
層Normアブレーションは、結晶化が残留流に固有のことを示し、LNスケーリング(x1.2)は推論オーバーヘッドをゼロにする+11.8% MC1を生成する。
計算可能な知識は、記憶された事実(28.0/28)よりも早く(22.1/28層)結晶化する。
5つのモデルファミリーをサポートするMechLensをリリースします。
関連論文リスト
- The Metacognitive Probe: Five Behavioural Calibration Diagnostics for LLMs [0.0]
メタ認知プローブ(Metacognitive Probe)は、探索的な5タスク、15スロットの診断である。
LLMの信頼性動作を5つの行動特異的な次元に分解する。
N=69人に対して評価される。
論文 参考訳(メタデータ) (2026-05-11T00:55:31Z) - The Metacognitive Monitoring Battery: A Cross-Domain Benchmark for LLM Self-Monitoring [0.0]
本稿では,Nelson and Narens(1990)メタ認知フレームワークを基盤としたLLMにおけるモニタリング制御結合のドメイン間挙動測定を紹介する。
電池依存キャリブレーションは、単調低下(Q)、単調上昇(GPT-5.4)、平(Gemma)を含む。
発見は、独立なType-2 SDTアプローチと構造的に収束し、予備的なクロスメタルキャリブレーションを提供する。
論文 参考訳(メタデータ) (2026-04-17T05:15:15Z) - THEIA: Learning Complete Kleene Three-Valued Logic in a Pure-Neural Modular Architecture [0.0]
THEIAは2.75Mのモジュラー・ニューラルアーキテクチャで、外部のシンボル推論や手書きのK3ゲートプリミティブを使わずにタスクデータから完全Kleene 3値論理(K3)真理表を学習する。
トランスフォーマーのベースラインは39の規則すべてで99%に到達し、フラットは0.04pp以内のフェーズ1の精度でTheIAと一致している。
論文 参考訳(メタデータ) (2026-04-13T10:44:15Z) - Anchored Confabulation: Partial Evidence Non-Monotonically Amplifies Confident Hallucination in LLMs [0.0]
大型言語モデルの既知特性を同定する。
完全な証拠が取り除かれる前に、自信と怒りの度合いを増す。
パラメトリック幻覚信頼(Parametric Hallucination Confidence,PHC)としてコミットし、6行のエビデンスで確立する。
論文 参考訳(メタデータ) (2026-04-02T02:13:45Z) - ConfRAG: Confidence-Guided Retrieval-Augmenting Generation [41.78313747240249]
複数の事実性ベンチマークで幻覚率を20~40%から5%以下に下げる微調整戦略であるConfQAを紹介した。
モデルが不確実に応答した場合のみRAGを起動するトリガー戦略であるConfRAGを提案する。
この枠組みは、不要な外部検索を30%以上削減しつつ、理想的な場合において95%以上の精度を達成する。
論文 参考訳(メタデータ) (2025-06-08T22:51:46Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。