論文の概要: Rift: A Conflict Signature for Deception in Language Models
- arxiv url: http://arxiv.org/abs/2606.17229v1
- Date: Mon, 15 Jun 2026 19:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.114737
- Title: Rift: A Conflict Signature for Deception in Language Models
- Title(参考訳): Rift: 言語モデルにおける騙しの競合シグナチャ
- Authors: Petr Nyoma,
- Abstract要約: 真実を知りながら横たわるモデルは、ELKが行動評価だけでは扱えない中心的なケースである。
このような偽造が、正直な誤りと区別する内部的な署名を残しているかどうかを問う。
偽りのフォワードパスは、競合シグネチャを持つ。2.1-2.3倍の残留ランクを持つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A model that lies while knowing the truth is the central case ELK cannot handle with behavioral evaluation alone. We ask whether such deception leaves an internal signature distinguishing it from honest error. Our key move is a control for wrongness: we contrast a sleeper agent (knows the truth, lies on trigger) against a naive liar (fine-tuned to emit the same wrong answers with no honest training). Both produce identical wrong outputs; any difference is about knowledge conflict, not incorrectness. We find deceptive forward passes carry a conflict signature - 2.1-2.3x higher residual rank than naive-liar passes on the same wrong answer - strong enough to identify which of two responses is the lie with 100% accuracy and no labels, across GPT-2 small/medium (three seeds) and three instruct models. Across Qwen2.5-1.5B/7B and Phi-3-mini, instructed deception raises residual rank on every tested fact (18/18, 40/40, 34/34); on Phi-3, lies separate perfectly from both honest answers and hallucinations (AUC 1.0, Wilcoxon p~6e-11). The signature survives strategic self-constructed deception (model invents its own lie, AUC 1.0), active concealment attempts (AUC 1.0), and length-controlled replication (20/20, AUC 1.0, p~1e-6). Using basis-free relative representations, a probe trained on one model family detects deception in two other families zero-shot (mean AUC 0.933), surviving simultaneous architecture and format change (AUC 0.821), and transfers across five languages (AUC 1.000, length-controlled). The signature is read-only: detectable but not injectable (0/8 both directions). Honest limitations and six negative experiments are documented in full.
- Abstract(参考訳): 真実を知りながら横たわるモデルは、ELKが行動評価だけでは扱えない中心的なケースである。
このような偽造が、正直な誤りと区別する内部的な署名を残しているかどうかを問う。
私たちは、スリーパーエージェント(真実を知り、引き金を引いて嘘をつく)とナイーブな嘘つき(正直な訓練なしで同じ間違った答えを出すように微調整された)を対比します。
違いは知識の衝突であり、誤りではない。
2つの反応のうちのどれが100%正確でラベルなしの嘘かを特定するのに十分な強さで、GPT-2 の小型/中型(3つの種子)と3つのインストラクションモデルにまたがる。
Qwen2.5-1.5B/7B と Phi-3-mini に指示された偽装は、テストされたすべての事実 (18/18, 40/40, 34/34) に対して残差のランクを上昇させ、Phi-3 では、正直な答えと幻覚(AUC 1.0, Wilcoxon p~6e-11)から完全に分離している。
署名は、戦略的な自己構築的偽造(モデルが自身の嘘を発明するAUC 1.0)、アクティブな隠蔽の試み(AUC 1.0)、長さ制御された複製(20/20、AUC 1.0、p~1e-6)を生き残る。
ベースフリーな相対表現を用いて、あるモデルファミリで訓練されたプローブは、ゼロショット(AUC 0.933)の他の2つのファミリーの詐欺を検知し、継続するアーキテクチャとフォーマットの変更(AUC 0.821)を検知し、5つの言語(AUC 1.000、長さ制御)間で転送する。
署名は読み取り専用で、検出できるが注入できない(0/8方向)。
正直な制限と6つの負の実験は、完全に文書化されている。
関連論文リスト
- Right Makes Might: Aligning Verified Hidden States Empowers RL Reasoning [55.264863369127774]
現在の方法では、それぞれの正しいロールアウトを単一の報酬ビットに減らし、隠れた状態間で共有される幾何学的構造を無視している。
本稿では,RLトレーニングにおけるアンカートークンにおける正ロールアウトの最終層を,トレーニングと推論の両方においてゼロオーバーヘッドで整列する補助損失関数Hidden-Alignを提案する。
8つの数学的推論ベンチマークでは、Hidden-AlignはDAPOベースラインの平均パス@1をQwen3-1.7B, 4B, 14Bで3.8, 6.2, 5.4ポイント改善し、3つのスケールで一貫したパス@kゲインを得る。
論文 参考訳(メタデータ) (2026-06-02T06:51:15Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Two Wrongs, No Right: Auditing Social-Desirability Bias in LLM Annotators for Computational Social Science [0.11280931253550518]
6つのTweetEvalタスクに対して、オープンソースの7B命令チューニングモデル(Zephyr、Mistral-Instruct、Qwen2.5-Instruct)を監査する。
3モデルとも中絶の姿勢に中立バイアスを示し、反対の頻度を24~40ポイント過小評価し、中立ラベルを膨らませる。
興味深いことに、Zephyrのヘイトスピーチの有病率推定は、クラス条件誤差が両方の方向で大きいのに対して、ゴールドレートと正確に一致している。
論文 参考訳(メタデータ) (2026-05-12T08:14:10Z) - Hidden Error Awareness in Chain-of-Thought Reasoning: The Signal Is Diagnostic, Not Causal [6.908637308550535]
思考の連鎖は、生成された推論がモデルの内部計算を反映していると仮定する。
この仮定は、特定の測定可能な方法で間違っていることを示す。
モデルは自身の推論エラーを内部的に検出するが、その信頼性を外部に表現する。
論文 参考訳(メタデータ) (2026-05-10T12:26:46Z) - The Geometry of Forgetting: Temporal Knowledge Drift as an Independent Axis in LLM Representations [50.43168858368539]
大規模言語モデルは自信を持って時代遅れの回答を生成し、既存の方法では検出できない。
これは工学的な失敗ではなく構造的な失敗であり、時間的ドリフトは、幾何的に残留流の方向として、正確性と不確実性の両方に符号化される。
論文 参考訳(メタデータ) (2026-05-09T22:27:31Z) - The Compliance Gap: Why AI Systems Promise to Follow Process Instructions but Don't [0.0]
私たちはこれを、コンプライアンスギャップ(Compliance Gap)と呼んでいる: 事実の真理性と修辞的な物質とは異なる、AIの第3の軸である。
約75のベンチマークは結果の忠実度を測定している。
BS-Benchは、プロセスコンプライアンスのための最初のオープンベンチマークで、7つのツールコールログ監査メトリクスと公開リーダボードがあります。
論文 参考訳(メタデータ) (2026-05-03T08:11:15Z) - Distilling Self-Consistency into Verbal Confidence: A Pre-Registered Negative Result and Post-Hoc Rescue on Gemma 3 4B [0.0]
インストラクトチューニングされた小さなLLMは、最小の誘引の下で変性した言語的信頼を生み出す。
自信条件付き教師付き微調整と自己整合性に基づく目標が内部情報と音声読取のギャップを埋めるかどうかを検証した。
論文 参考訳(メタデータ) (2026-04-27T05:53:26Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News [47.03825808787752]
人間は、ニュース記事が人によって書かれたか、あるいは大きな言語モデル(LLM)によって書かれたかを知ることができますか?
本稿では,人間対機械(人間対機械)と正当性判定(正当性対偽判定)を連続的なスケールで測定する研究プラットフォームであるJiceGPTを用いて,この問題を考察する。
筆者らは,(1) 被験者が人文テキストから機械生成物を確実に識別できないこと,(2) 認知疲労による約30回の連続的な評価の後,その精度が低下すること,の5つを報告した。
論文 参考訳(メタデータ) (2026-04-04T15:03:42Z) - Probing for Knowledge Attribution in Large Language Models [45.47366023067617]
大規模言語モデル(LLM)は、しばしば流動的だが根拠のないクレームや幻覚を生成する。
適切な緩和は、モデルの答えがプロンプトまたは内部の重みに基づいているかどうかを知ることに依存する。
モデル隠れ表現に基づいて訓練された単純な線形分類器であるプローブは、帰納的帰属を確実に予測できることを示す。
論文 参考訳(メタデータ) (2026-02-26T09:21:12Z) - Cognitive Dissonance: Why Do Language Model Outputs Disagree with
Internal Representations of Truthfulness? [53.98071556805525]
ニューラルネットワークモデル(LM)は、事実文の真偽を評価するために用いられる。
それらは、文の確率を問い合わせたり、真理の表現を内部で探したりすることができる。
過去の研究によると、これらの2つの手順は時折不一致であり、プローブはLM出力よりも正確である。
この結果、一部の研究者は、LMが非協力的なコミュニケーション意図を「十分」あるいは他の方法でコード化していると結論付けている。
論文 参考訳(メタデータ) (2023-11-27T18:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。