論文の概要: Greedy Coordinate Diffusion: Effective and Semantically Coherent Adversarial Attacks via Diffusion Guidance
- arxiv url: http://arxiv.org/abs/2606.15531v2
- Date: Tue, 16 Jun 2026 14:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.734344
- Title: Greedy Coordinate Diffusion: Effective and Semantically Coherent Adversarial Attacks via Diffusion Guidance
- Title(参考訳): グレディ・コーディネート・ディフュージョン : ディフュージョン・ガイダンスによる効果的なセマンティック・コヒーレント・アタック
- Authors: Bohdan Turbal, Blossom Metevier, Max Springer, Aleksandra Korolova,
- Abstract要約: 大規模言語モデルに対するアドリアック攻撃は、広範な研究にもかかわらず、実用的影響が限られている。
本稿では,Greedy Coordinate Diffusion(GCD)について紹介する。
GCDは、敵の本来の意図に低い難易度と高い意味的固執を維持している。
- 参考スコア(独自算出の注目度): 48.34904668359272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks on large language models have limited practical impact despite extensive research. Optimization-based attacks such as Greedy Coordinate Gradient (GCG) (Zou et al., 2023) produce high-perplexity, incoherent suffixes that existing defenses easily detect (Bengio et al., 2024). Moreover, attempting to enforce coherence constraints during optimization often prevents the attack from successfully eliciting the specific targeted response, resulting in low success rates against robust models. Conversely, attacks that maintain coherence often alter the semantic intent of queries; when the model complies with these altered queries, responses fail to address the adversary's original goal. In this work, we introduce Greedy Coordinate Diffusion (GCD), a novel framework that efficiently generates adversarial attacks against safety-aligned models while maintaining low perplexity and high semantic adherence to the adversary's original intent. GCD leverages the generative priors of discrete diffusion language models to guide the search for adversarial suffixes that achieve semantic coherence and adherence. Unlike GCG, GCD does not require direct gradient access, allowing it to operate in a gray-box setting. We show GCD achieves highest ASR while remaining competitive on response-quality scores, and that the constructed adversarial prompts are detected at lower rates than other methods by perplexity-based and guard-model filters.
- Abstract(参考訳): 大規模言語モデルに対する敵対的攻撃は、広範な研究にもかかわらず、実用的影響が限られている。
Greedy Coordinate Gradient (GCG) (Zou et al , 2023)のような最適化ベースの攻撃は、既存の防御が容易に検出できるような、複雑で不整合な接尾辞を生成する(Bengio et al , 2024)。
さらに、最適化中にコヒーレンス制約を強制しようとすると、攻撃が特定のターゲットの応答をうまく引き出すのを防ぎ、ロバストモデルに対する成功率を低くする。
逆に、コヒーレンスを維持する攻撃はクエリの意味的意図を変化させることが多く、モデルがこれらの変化したクエリに準拠すると、応答は相手の本来の目標に対処することができない。
本稿では,Greedy Coordinate Diffusion(GCD)について紹介する。これは,低難易度を維持しつつ,敵の本来の意図に高いセマンティック・アテンションを維持しつつ,安全に整合したモデルに対する敵攻撃を効率的に生成する新しいフレームワークである。
GCDは、離散拡散言語モデルの生成先行を利用して、セマンティック・コヒーレンスとアテンデンスを達成する逆接尾辞の探索を導く。
GCGとは異なり、GCDは直接勾配アクセスを必要としないため、グレーボックスの設定で操作できる。
GCDは応答品質のスコアで競争力を維持しながら高いASRを達成でき、構築された逆方向のプロンプトは他の手法よりも低レートでパープレキシティベースおよびガードモデルフィルタによって検出されることを示す。
関連論文リスト
- When Safety Geometry Collapses: Fine-Tuning Vulnerabilities in Agentic Guard Models [0.9772267314090434]
完全な良性データに微調整されたガードモデルは、すべての安全アライメントを失う可能性がある。
本研究は, 潜伏した安全形状の破壊に起因していることを示す。
漁業用安全部分空間規則化を提案する。
論文 参考訳(メタデータ) (2026-04-08T05:27:33Z) - The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety [40.556122962771276]
良質なタスクに関する微調整言語モデルは、予測不能に安全ガードレールを格下げする。
我々は、アライメントがシャープな曲率を持つ低次元部分空間に集中していることを証明する。
我々はこの機構をアライメント不安定条件によって定式化する。
論文 参考訳(メタデータ) (2026-02-17T18:39:15Z) - Invariance on Manifolds: Understanding Robust Visual Representations for Place Recognition [19.200074425090595]
本稿では,2次幾何統計フレームワークを提案する。
提案手法では、固定されたトレーニング済みのバックボーン上に構築されたトレーニング不要のフレームワークを導入し、パラメータ更新なしで強力なゼロショット一般化を実現する。
論文 参考訳(メタデータ) (2026-01-31T18:12:29Z) - Riemannian Flow Matching for Disentangled Graph Domain Adaptation [51.98961391065951]
グラフドメイン適応(GDA)は典型的には、ユークリッド空間におけるグラフ埋め込みの整列に逆学習を使用する。
DisRFMは、埋め込みとフローベースのトランスポートを統一する幾何学的なGDAフレームワークである。
論文 参考訳(メタデータ) (2026-01-31T11:05:35Z) - How Does Prefix Matter in Reasoning Model Tuning? [57.69882799751655]
推論(数学)、コーディング、安全性、事実性の3つのコアモデル機能にまたがる3つのR1シリーズモデルを微調整します。
その結果,プレフィックス条件付きSFTでは安全性と推論性能が向上し,Safe@1の精度は最大で6%向上した。
論文 参考訳(メタデータ) (2026-01-04T18:04:23Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。