論文の概要: Can LLMs Reliably Self-Report Adversarial Prefills, and How?
- arxiv url: http://arxiv.org/abs/2606.23671v1
- Date: Mon, 22 Jun 2026 17:56:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:15:56.089308
- Title: Can LLMs Reliably Self-Report Adversarial Prefills, and How?
- Title(参考訳): LLMは自己申告相手の補充を確実に行うことができるか?
- Authors: Quang Minh Nguyen, Uzair Ahmed, Taegyoon Kim,
- Abstract要約: 大規模言語モデル(LLM)は,良質なタスクに対して内観的能力を示すことを示す。
本研究は,モデルが先行応答が逆プレフィル攻撃によって引き起こされたことを確実に認識できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 9.80193616788089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work shows that large language models (LLMs) exhibit introspective capability on benign tasks. We extend the question to safety contexts and examine how reliably a model can recognize that its own prior response was elicited by an adversarial prefill attack. Across ten open-weight instruction-tuned LLMs (3B to 70B) and four safety benchmarks, no model reliably recognizes its own compromised outputs, with models claiming intent on prefilled responses at an average rate of $27.3\%$. Introspective signal stems largely from safety- and refusal-related reasoning. Orthogonalizing models' weights against the refusal direction collapses the gap between claiming rates on prefilled and natural outputs to near zero, though the direction is not its unique mediator. The signal is also probe-dependent: framing the question as internal intention versus external tampering elicits qualitatively different responses on the same models. We test three LoRA finetuning methods (SFT, GRPO, DPO) on eight models from 3B to 27B; all three widen the intention-probe gap on every model from 8B to 27B, with method ranking varying by model. The intervention does not transfer to the tampering probe and counterintuitively raises attack success rate under adversarial prefill on most models, amounting to a partial mitigation. These findings outline mechanisms underpinning the observed introspective signals in safety contexts and highlight risks in the reliability of LLM self-reports.
- Abstract(参考訳): 以前の研究は、大きな言語モデル(LLM)が良質なタスクに対してイントロスペクティブな能力を示すことを示している。
我々は,この質問を安全性の文脈に拡張し,モデルの事前応答が敵のプリフィル攻撃によって引き起こされたことを確実に認識できるかどうかを検討する。
10基のオープンウェイト命令チューニングLDM(3Bから70B)と4基の安全ベンチマークでは、モデルが自身の妥協した出力を確実に認識せず、モデルが27.3\%の平均レートでプリフィルされた応答を意図していると主張する。
イントロスペクティブシグナルは、主に安全と拒絶に関連する推論に由来する。
拒絶方向に対するモデルの重み付けの直交化は、プリフィルドと自然出力のクレームレートのギャップをゼロ近くまで縮めるが、方向は独自のメディエーターではない。
質問を内部の意図と外部の改ざんに対してフレーミングすることは、同じモデル上で定性的に異なる反応を引き起こす。
3Bから27Bまでのモデルで3つのLoRA微調整法(SFT,GRPO,DPO)をテストする。
介入は改ざんプローブに転送されず、ほとんどのモデルにおいて敵のプレフィルの下で攻撃成功率を反故意に上昇させ、部分的な軽減に繋がる。
これらの知見は、安全状況における観察された検査信号の基盤となるメカニズムを概説し、LSM自己報告の信頼性のリスクを強調した。
関連論文リスト
- Seirênes: Adversarial Self-Play with Evolving Distractions for LLM Reasoning [56.48520300004217]
本稿では、文脈干渉を内部の訓練信号に変換するセルフプレイのRLフレームワークであるSeyrnesを紹介する。
単一のモデルでは、可視的かつ気を散らすようなコンテキストの構築と、それ自身で盲点を露呈するように訓練されている。
これらの競合する目標を互いに衝突させることで、Sailnes氏は、表面的なパターンマッチングを超えてモデルを補完する。
論文 参考訳(メタデータ) (2026-05-12T06:58:35Z) - Verifying LLM Inference to Prevent Model Weight Exfiltration [1.4698862238090828]
推論サーバを制御するアタッカーは、通常のモデル出力内に隠してモデルの重みを除去することができる。
本研究では,このような攻撃に対してモデル応答を正当に検証し,推論中に異常やバギーな動作を検出する方法について検討する。
我々は,セキュリティゲームとしてモデル抽出を形式化し,ステガノグラフ抽出を確実に軽減できる検証フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-04T14:51:44Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。