論文の概要: MIRAGE: A Polarity-Flipping Encoding Subspace in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.10304v1
- Date: Tue, 09 Jun 2026 01:45:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.252788
- Title: MIRAGE: A Polarity-Flipping Encoding Subspace in LLM Agents
- Title(参考訳): MIRAGE: LLMエージェントにおける極性フリップ符号化サブスペース
- Authors: Pratibha Revankar, Kargi Chauhan, Jihye Kim, Sadiba Nusrat Nur, Vincent Siu, Chenguang Wang,
- Abstract要約: LLMエージェントは機密データを隠蔽的に符号化する。
その結果出力は出力側検出を回避するが、基礎となる計算は行わない。
両信号を利用した2チャンネルリアルタイムモニタであるMIRAGEを構築した。
- 参考スコア(独自算出の注目度): 2.896184275229374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When LLM agents are coerced into covertly encoding sensitive data (Base64, ROT13, acrostic, synonym chains, and beyond), the resulting outputs evade output-side detection but the underlying computation does not. Across nine encoding families and eight models from five architecture families, that computation is supported by a shared low-dimensional encoding subspace in the residual stream. A logistic-regression probe trained on eight encoding families recovers the held-out ninth at AUC 0.975-1.000, reading the computation rather than surface features. The same direction exhibits a second mechanistic signature at the planning token, flipping polarity to activate positively when the model will simulate the encoding inline and negatively when it will outsource it to a tool call, distinguishing two execution strategies before the encoded text exists. We build MIRAGE (Model-Internal Readout of Agentic Generation Exfiltration), a two-channel real-time monitor exploiting both signals. On 126 agentic exfiltration scenarios, it reaches AUC = 0.918, substantially outperforming output-only detection (AUC = 0.518). Monitor performance is fundamentally a property of the host model's geometry: benign-encoding false-positive rate ranges from 0% on Qwen-7B to 100% on Phi-3.5, revealing that the probe faithfully reads whether a model's geometry separates covert from overt encoding. Across all tested adversarial budgets, every attack suppressing the subspace also destroyed encoding fidelity, reported as an empirical regularity on the evaluated budgets, not a structural impossibility claim.
- Abstract(参考訳): LLMエージェントが機密データ(Base64、ROT13、アクロスティック、シノニムチェーンなど)を隠蔽的に符号化すると、出力は出力側検出を回避できるが、基礎となる計算は行わない。
9つのファミリと5つのアーキテクチャファミリの8つのモデルにまたがって、計算は残留ストリーム内の共有低次元の符号化部分空間によって支援される。
8つのエンコーディングファミリーでトレーニングされたロジスティック回帰プローブは、AUC 0.975-1.000で9番目のホールドアウトを回復し、表面の特徴ではなく計算を読み取る。
同じ方向は計画トークンで第2のメカニスティックシグネチャを示し、モデルがインラインをシミュレートし、ツールコールにアウトソースするときに正にポラリティを活性化し、符号化されたテキストが存在する前に2つの実行戦略を区別する。
我々は,MIRAGE (Model-Internal Readout of Agentic Generation Exfiltration) を構築した。
126のエージェント外ろ過シナリオでは、AUC = 0.918に達し、出力のみの検出(AUC = 0.518)を大幅に上回っている。
良性エンコード偽陽性率は Qwen-7B では 0% から Phi-3.5 では100% の範囲であり、モデル幾何がovert エンコーディングと分離するかどうかを調査者は忠実に読み取る。
検証された全ての敵の予算の中で、サブスペースを抑える全ての攻撃は、構造的不合理な主張ではなく、評価された予算に対する経験的規則性として報告されたエンコーディングの忠実性も破壊した。
関連論文リスト
- Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs [52.149036302760386]
大規模な言語モデルは、プロンプトによって引き起こされるシークレットを、流動的で良心的な出力にエンコードするように微調整することができる。
近年の研究では、内部の活性化から秘密を回収する線形プローブによる検出を提案する。
この防御は体系的に回避できるが,対象とするデータレベルの介入によって検出性が回復可能であることを示す。
論文 参考訳(メタデータ) (2026-06-08T12:27:11Z) - A Protocol-Language Model for Network Intrusion (Without Deep Packet Inspection) [0.0]
PLM-NIDSは3つの主張を連続的に証明する。
IP/TCP/UDPヘッダのみを読み込むため、本質的に暗号化に依存しない。
論文 参考訳(メタデータ) (2026-05-29T07:03:11Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Harmful Intent as a Geometrically Recoverable Feature of LLM Residual Streams [0.0]
有害な意図は、大きな言語モデル残ストリームから幾何的に回復可能である。
我々はこの幾何学を6つの方向決定戦略によって特徴づける。
AdvBenchはホールドアウトのHarmBenchとJailbreakBenchにAUROC 0.96で転送される。
論文 参考訳(メタデータ) (2026-04-20T23:02:37Z) - Post-Cut Metadata Inference Attacks on Quantum Circuit Cutting Pipelines [3.9890357781493595]
量子回路切断により、回路を実行可能なフラグメントに分解することで、量子ビット容量を超えるワークロードを、短期的な量子デバイスで実行することができる。
フラグメントレベルの実行トランスクリプトは、半最高級のクラウドプロバイダによって監視可能である。
我々はこの表面を定式化し、ポストカットされた文字起こしが実用的なメタデータ側チャネルを構成することを示す。
論文 参考訳(メタデータ) (2026-04-12T11:51:05Z) - Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask [74.64216073678617]
AMDはアテンションマスクを用いて隠された出力ラベルの連続ブロック内で並列NAR推論を行う。
ビームサーチアルゴリズムは、CTC、ARデコーダ、AMD確率の動的融合を利用するように設計されている。
LibriSpeech-100hrコーパスの実験では、AMDモジュールを組み込んだトリパルタイトデコーダが最大1.73倍のデコード速度比を生み出すことを示唆している。
論文 参考訳(メタデータ) (2024-06-14T13:42:38Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。