論文の概要: Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models
- arxiv url: http://arxiv.org/abs/2606.24952v1
- Date: Tue, 23 Jun 2026 08:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.0673
- Title: Perfect Detection, Failed Control: The Geometry of Knowing vs. Steering in Language Models
- Title(参考訳): 完全検出, フェール制御:言語モデルにおける知識対ステアリングの幾何学
- Authors: Cosimo Galeone, Anna Ettorre, Minsu Park, Giuseppe Ettorre, Daniele Ligorio,
- Abstract要約: 私たちは、最も行動を検出する方向と、それを引き起こす方向の角度をテストします。
検出が制御を意味する場合、コサインは1付近であり、そうでなければ検出ギャップを定量化する。
コサインは、知識とステアリングの解離の重み付け可能な記号であり、その予測子ではない。
- 参考スコア(独自算出の注目度): 1.9247157750972368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central aspiration of mechanistic interpretability is controllability: if we know where a behavior is represented in a model's activations, we should be able to modify it. This rests on a hidden premise -- that the direction which detects a behavior and the direction which controls it are the same, or close. We test this geometrically: what is the angle between the direction that best detects a behavior and the one that best causes it? If detection implies control the cosine is near 1; otherwise it quantifies a detection-intervention gap. On Gemma 2-2B-it, output format (clean JSON vs markdown fencing) collapses both roles onto one axis. Hallucination does not: the model detects fake entities with perfect linear separability (AUC = 1.000 from layer 5), yet that direction sits at cos = 0.12 (about 83 degrees) from the direction producing a refusal -- a small, reproducible alignment, far from the cos = 1 that "detection is control" would require. A detector built from activations, with no chosen tokens, likewise fails to align (cos = -0.06). The gap generalizes: across four models from three families and two scales (1B-9B), cos stays in [0.12, 0.20], identical before and after instruction tuning (0.1197 vs 0.1200), placing its origin in pretraining. A 15-degree rotation toward the refusal direction partially bridges it -- 73% and 60% refusal on two held-out fake-entity categories at 1.8% false positives. We then ask whether this cosine predicts steerability, and it does not: detection is a high-dimensional class, not a single direction, and what separates the steerable case is functional, not readable from a static angle. The cosine is a weight-computable signature of the dissociation between knowing and steering, not a predictor of it.
- Abstract(参考訳): 機械的解釈可能性の中枢的な願望は制御可能性であり、もしモデルがアクティベーションで振る舞いがどこに表現されているかが分かっていれば、それを修正できるはずです。
これは、振る舞いを検出する方向と、それを制御する方向が同じ、または近いという、隠れた前提に基づいている。
振舞いを最もよく検出する方向と、それを最も引き起こす方向の角度は?
検出が制御を意味する場合、コサインは1付近であり、そうでなければ検出と干渉のギャップを定量化する。
Gemma 2-2B-itでは、出力フォーマット(クリーンJSON対マークダウンフェンシング)が両方のロールを1軸に分解する。
モデルでは完全な線形分離性を持つ偽の実体(AUC = 1.000 層 5 から)を検知するが、その方向は「検出が制御されている」 cos = 1 から遠く離れた、小さな再現可能なアライメント(英語版)を生成する方向から cos = 0.12 (約83 度) にある。
アクティベーションから構築された検出器は、選択されたトークンを持たないが、同様に整列に失敗する(cos = -0.06)。
3つのファミリーと2つのスケール(1B-9B)の4つのモデルにまたがって、cosは[0.12, 0.20]に留まり、インストラクションチューニングの前後(0.1197 対 0.1200 対 0.197 対 0.1200)は同じであり、その起源は事前訓練に置かれている。
拒絶方向に向かって15度の回転が部分的に橋渡しされ、そのうち73%と60%が1.8%の偽陽性で保持された2つの偽陽性カテゴリーを拒絶している。
検出は1つの方向ではなく高次元のクラスであり、どのケースを分離するかは機能的であり、静的な角度から読めない。
コサインは、知識とステアリングの解離の重み付け可能な記号であり、その予測子ではない。
関連論文リスト
- Measuring Alignment-Induced Activation Shifts Correctly: A Template-Controlled Difference-in-Differences Protocol [0.0]
この行列を形成するための明らかな方法を示す。
整列モデルはチャットテンプレートで評価され、ベースモデルは見なかった。
我々は、アライメントの活性化差研究のための測定勧告にそれを蒸留する。
論文 参考訳(メタデータ) (2026-05-23T13:47:17Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal [6.908637308550535]
思考の連鎖は、生成された推論がモデルの内部計算を反映していると仮定する。
この仮定は、特定の測定可能な方法で間違っていることを示す。
モデルは自身の推論エラーを内部的に検出するが、その信頼性を外部に表現する。
論文 参考訳(メタデータ) (2026-05-10T12:26:46Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - TACT: Mitigating Overthinking and Overacting in Coding Agents via Activation Steering [70.99933391739154]
我々は、エージェントが既に持っている情報に対して繰り返し理由付けを行う2つの障害モードと、最近の観察を統合したり、新たな証拠を取得することなくツールコールを発行する2つの障害モードに焦点を当てる。
本稿では,活性化ステアリングによるTACT (Think-Act via activation Steering) を導入し,動作不良として現れる前に残留流中のエージェントの漂流を検知・緩和する。
具体的には、軌道のステップを過度に考え、過剰に実行し、あるいは校正し、隠れた状態が2つの *drift 軸* に沿って線形に分離できることを発見し、それぞれの障害モードに向かって校正された振る舞いを指示する。
論文 参考訳(メタデータ) (2026-05-07T10:24:27Z) - Reliable Control-Point Selection for Steering Reasoning in Large Language Models [28.288321095634128]
ステアリングベクトルは、大規模言語モデルにおける推論動作を制御するためのトレーニング不要のメカニズムを提供する。
しかし、有効なベクトルを構成するには、モデルが隠した状態にある真の行動信号を特定する必要がある。
提案手法は,全ての検出された境界が真の行動信号を符号化していることを暗黙的に仮定して,チェーンオブソートトレースのキーワードマッチングによってこれらの挙動を検出する。
本研究では,コンテキスト依存的なトリガ確率を持つ事象として固有の推論動作を形式化する確率モデルを構築し,不安定な境界が操舵信号を弱めることを示す。
論文 参考訳(メタデータ) (2026-04-02T14:48:56Z) - The Confidence Manifold: Geometric Structure of Correctness Representations in Language Models [1.45309944076563]
5つのアーキテクチャファミリから9つのモデルにまたがる正しさの表現を特徴付ける。
我々はアクティベーションステアリングによる因果性評価を行った。
正確性信号は内部に存在するが、出力では表現されない。
論文 参考訳(メタデータ) (2026-02-08T23:27:10Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z) - On the Arbitrary-Oriented Object Detection: Classification based
Approaches Revisited [94.5455251250471]
まず,既存の回帰型回転検出器が抱える境界問題は,角周期性や角秩序によって引き起こされることを示した。
我々は、角予測タスクを回帰問題から分類問題に変換する。
得られた円形分布角分類問題に対して、まず、角度の周期性に対処し、隣り合う角度に対する誤差耐性を高めるために、円スムースラベル法を考案する。
論文 参考訳(メタデータ) (2020-03-12T03:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。