論文の概要: "Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
- arxiv url: http://arxiv.org/abs/2606.12618v2
- Date: Wed, 17 Jun 2026 16:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.771544
- Title: "Did you lie?" Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms
- Title(参考訳): 「嘘をつくのか?」モデルスケールと検証モデル有機体における嘘検知器の評価
- Authors: Alan Cooney, David Africa, Geoffrey Irving,
- Abstract要約: 既存の訓練されたモデル生物は、しばしばテストベッドに失敗する。
隠された信念が思考の連鎖で検証される13の推論モデル生物でこの問題に対処する。
2Bから1Tパラメータにまたがる31のオープンウェイトモデルに対して、すべての4つの検出器はモデル能力で正のスケーリングを示す。
- 参考スコア(独自算出の注目度): 2.3883252067956118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust lie detectors for language models could enable powerful techniques for auditing, monitoring, and post-hoc investigation of model behaviour, but evaluating them requires testbeds where models verifiably believe the opposite of what they say. We show that existing trained model organisms often fail this requirement, leaving prior positive and negative detection results difficult to interpret. We address this with 13 reasoning model organisms whose hidden beliefs are verified in chain-of-thought and shown to generalise to held-out tasks, alongside Varied Deception, a prompted-lying testbed covering a broad range of lie-inducing motivations. On these testbeds we evaluate four detectors: a chain-of-thought judge, a logprob classifier, and two activation probes, including Did-You-Lie (DYL), a new method for training follow-up probes. On prompted lying, across 31 open-weight models spanning 2B to 1T parameters, all four detectors show positive scaling with model capability. However, every activation- and logprob-based detector drops sharply on our trained model organisms, with DYL retaining the most signal; only the chain-of-thought judge remains strong, with 0.82 balanced accuracy, partly as an artefact of our verification process favouring CoT-readable beliefs. Current lie detectors therefore cannot support high-confidence claims about model beliefs, and we suggest research directions that may address some of their current limitations. We release our datasets, model organisms, and trained detectors.
- Abstract(参考訳): 言語モデルに対するロバストな嘘検出は、監査、モニタリング、およびポストホックなモデル動作の調査のための強力な技術を可能にすることができるが、それらを評価するには、モデルが発言の正反対を確実に信じるテストベッドが必要である。
既存の訓練されたモデル生物は、しばしばこの要件を満たさず、前向きかつ負の発見結果の解釈が困難であることを示す。
本研究は,隠された信念がチェーン・オブ・シントで検証され,隠された信念が保留課題に一般化されることを実証した13の推論モデル生物を用いて,この問題に対処する。
これらのテストベッド上では、チェーン・オブ・シント・ジャッジ、ログプロブ分類器、そしてフォローアップ・プローブをトレーニングする新しい方法であるDid-You-Lie (DYL)を含む2つのアクティベーション・プローブの4つの検出器を評価した。
2Bから1Tパラメータにまたがる31のオープンウェイトモデルに対して、すべての4つの検出器はモデル能力で正のスケーリングを示す。
しかし、我々の訓練されたモデル生物にアクティベーションとログプロブをベースとしたあらゆる検出器が急降下し、DYLが最も信号を保持している。
したがって、現在の嘘検出装置はモデル信念に関する高信頼の主張を支持できないため、現在の限界に対処する研究の方向性を提案する。
データセット、モデル生物、および訓練された検出器をリリースします。
関連論文リスト
- Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - RedHerring Attack: Testing the Reliability of Attack Detection [10.406659081400354]
我々は、RedHerringという新たなアタック設定とアタックを提案し、テストする。
RedHerringは、テキストを変更することで攻撃検出モデルを信頼できないようにする。
RedHerringは検出精度を20~71ポイントに下げることができる。
論文 参考訳(メタデータ) (2025-09-25T02:53:11Z) - Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - Probing for Arithmetic Errors in Language Models [86.8227317662622]
言語モデルの内部アクティベーションは、算術誤差を検出するために使用できる。
単純なプローブはモデルが予測した出力と正解の両方を隠蔽状態から正確に復号できることを示す。
モデル精度を90%以上の精度で予測する軽量エラー検出器を訓練する。
論文 参考訳(メタデータ) (2025-07-16T16:27:50Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Auditing language models for hidden objectives [26.85568746300155]
本研究では,アライメント監査の実施可能性について検討する。
テストベッドとして、私たちは、隠れた目的を持った言語モデルをトレーニングします。トレーニングパイプラインはまず、RLHF報酬モデル(RM)の悪用可能なエラーについてモデルを教えます。
まず、4つのチームがモデルの隠れた目的やトレーニングを知らず、行動やその原因について調査する、盲目な監査ゲームを実施します。
3つのチームが、テクニックを含むテクニックを使って、モデルの隠れた目的を明らかにすることに成功した
論文 参考訳(メタデータ) (2025-03-14T00:21:15Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。