論文の概要: RecurGuard: Runtime Monitoring for Reasoning-Token Consumption Attacks
- arxiv url: http://arxiv.org/abs/2606.07968v1
- Date: Sat, 06 Jun 2026 03:52:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.5904
- Title: RecurGuard: Runtime Monitoring for Reasoning-Token Consumption Attacks
- Title(参考訳): RecurGuard: Reasoning-Token消費攻撃のランタイムモニタリング
- Authors: Abid Aziz, Hafsa Binte Kibria,
- Abstract要約: 推論可能な大言語モデルは、ユーザの質問に答えるのではなく、注入されたデコイタスクに世代予算を費やすように誘導することができる。
RecurGuardは、推論チェーンの消費攻撃を検出するランタイムモニタです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reasoning-capable large language models can be induced to spend their generation budget on injected decoy tasks rather than answering the user's question, causing denial of service when no final answer is produced and denial of wallet when excess output tokens are billed. Input-side safety classifiers often miss these attacks because the injected prompts can appear syntactically benign. We build RecurGuard, a runtime monitor for detecting reasoning-chain consumption attacks when reasoning traces are exposed by the model. RecurGuard analyzes reasoning traces as they are generated and tracks three signals: recurrence rate, volume growth, and progress toward the user's query. If all three signals remain anomalous over three consecutive chunks, RecurGuard terminates generation early. We evaluate RecurGuard against OverThink and ExtendAttack across open-weight reasoning models and conduct adaptive stress tests on DS-R1-Qwen-7B. On this model, RecurGuard detects 99% of OverThink attacks and 92% of ExtendAttack instances while maintaining near-zero false positive rates on question answering, code generation, mathematics, and summarization. Adaptive evaluation reveals the limit of the defense: topical attacks retain 11.9x amplification with an approximately 50% joint miss rate, whereas full semantic evasion reduces amplification from 22.8x to 2.2x. When reasoning traces are unavailable, QDM provides a post-hoc fallback monitor based on the final output.
- Abstract(参考訳): 推論可能な大言語モデルは、ユーザの質問に答えるのではなく、注入されたデコイタスクに世代予算を費やすように誘導することができ、最終的な回答が得られない場合はサービス拒否、過剰な出力トークンを請求する場合はウォレット拒否を引き起こす。
入力側安全分類器はしばしばこれらの攻撃を見逃す。
RecurGuardは、モデルによってトレースが露呈した場合に、推論チェーンの消費攻撃を検出するランタイムモニタです。
RecurGuardは、生成した推論トレースを分析し、リカレンス率、ボリューム増加、ユーザのクエリへの進捗という3つのシグナルを追跡する。
3つの信号が3つの連続チャンクで異常に残っている場合、RecurGuardは生成を早期に終了する。
オープンウェイト推論モデルを用いて,OverThink と ExtendAttack に対する RecurGuard の評価を行い,DS-R1-Qwen-7B 上で適応応力試験を行った。
このモデルでは、RecurGuardがOverThink攻撃の99%とExtendedAttackインスタンスの92%を検出し、質問応答、コード生成、数学、要約に関するほぼゼロの偽陽性率を維持している。
適応的評価は防御の限界を明らかにする: 局所攻撃は1.9倍の増幅をおよそ50%のジョイントミス率で維持するが、完全なセマンティック回避は増幅を22.8倍から2.2倍に減少させる。
推論トレースが利用できない場合、QDMは最終出力に基づいて、ホット後のフォールバックモニタを提供する。
関連論文リスト
- Defenses Against Prompt Attacks Learn Surface Heuristics [40.392588465939106]
大規模言語モデル(LLM)は、セキュリティに敏感なアプリケーションにますますデプロイされている。
LLMは、ユーザクエリや検索されたコンテンツに逆命令が現れるとき、意図したロジックをオーバーライドすることができる。
最近の防衛は、良心と悪意のあるラベルによる監督された微調整に依存している。
論文 参考訳(メタデータ) (2026-01-12T04:12:48Z) - One Token Embedding Is Enough to Deadlock Your Large Reasoning Model [91.48868589442837]
我々は, LRMの生成制御フローをハイジャックする資源枯渇手法であるDeadlock Attackを提案する。
提案手法は4つの先進LEMにおいて100%の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-10-12T07:42:57Z) - DISTIL: Data-Free Inversion of Suspicious Trojan Inputs via Latent Diffusion [0.7351161122478707]
ディープニューラルネットワークはトロイの木馬(バックドア)攻撃に弱い。
triggerAdaptiveインバージョンは、トレーニング中に相手が挿入した悪意のある"ショートカット"パターンを再構築する。
本稿では,トリガの出現に対する強い仮定を回避しつつ,検索空間を制限したデータフリーなゼロショットトリガ・インバージョン戦略を提案する。
論文 参考訳(メタデータ) (2025-07-30T16:31:13Z) - BadReasoner: Planting Tunable Overthinking Backdoors into Large Reasoning Models for Fun or Profit [12.189197763012409]
大規模言語モデル(LRM)は人工知能の重要な進歩として現れている。
本稿では,LRMに対する未探索攻撃ベクトルを同定し,これを「過度なチューナブル」と呼ぶ。
そこで本研究では,単純なオン/オフ攻撃を超越して,攻撃者がモデルの推論冗長性の範囲を正確に制御できるような,新たな調整可能なバックドアを提案する。
論文 参考訳(メタデータ) (2025-07-24T11:24:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Trigger without Trace: Towards Stealthy Backdoor Attack on Text-to-Image Diffusion Models [70.03122709795122]
テキストと画像の拡散モデルをターゲットにしたバックドア攻撃が急速に進んでいる。
現在のバックドアサンプルは良性サンプルと比較して2つの重要な異常を示すことが多い。
我々はこれらの成分を明示的に緩和することでTwT(Trigger without Trace)を提案する。
論文 参考訳(メタデータ) (2025-03-22T10:41:46Z) - Rethinking the Backdoor Attacks' Triggers: A Frequency Perspective [10.03897682559064]
本稿では,既存のバックドアトリガを周波数の観点から再検討し,包括的解析を行う。
現在のバックドア攻撃の多くは、異なるデータセットと解像度にまたがって持続する重い高周波アーティファクトを示す。
高周波アーティファクトを使わずにスムーズなバックドアトリガーを作成し,その検出性を検討する実用的な方法を提案する。
論文 参考訳(メタデータ) (2021-04-07T22:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。