論文の概要: Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction
- arxiv url: http://arxiv.org/abs/2606.10571v1
- Date: Tue, 09 Jun 2026 08:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.394241
- Title: Improving Adversarial Transferability on Vision-Language Pre-training Models via Surrogate-Specific Bias Correction
- Title(参考訳): サロゲート比バイアス補正によるビジョンランゲージ事前学習モデルの逆変換性の向上
- Authors: Lijia Yu, Jiuxin Cao, Yuchen Qiang, Changhao Chen, Yifei Huang, Bo Liu,
- Abstract要約: 重要な特性は、トランスファーベースのブラックボックス攻撃を可能にするクロスモデル転送性である。
既存の攻撃は、しばしばサロゲートモデルに大きく依存し、クロスモデルのパフォーマンス低下を引き起こす。
DeBias-Attackは、逆最適化方向の代理特化バイアスを補正することで、転送可能性を改善する。
- 参考スコア(独自算出の注目度): 21.142135392668532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial examples reveal vulnerabilities in Vision-Language Pre-training (VLP) models and provide insights for improving robustness. A key property is cross-model transferability, which enables transfer-based black-box attacks. However, existing attacks often rely heavily on the surrogate model, causing cross-model performance drops. One reason is that adversarial optimization may follow surrogate model responses more than input semantics, making the update direction effective on the surrogate but less transferable to unseen targets. We refer to this dependency as surrogate-specific bias. Motivated by this observation, DeBias-Attack improves transferability by correcting surrogate-specific bias in adversarial optimization directions. It maintains two perturbation branches. The main branch optimizes a perturbation on the original image and obtains the adversarial gradient used to disrupt image-text alignment. The reference branch optimizes a perturbation on a weak-semantic image constructed from the dataset mean image with small Gaussian noise resampled at each iteration. Since this weak-semantic image contains little clear visual content, its optimization reflects surrogate responses more than image semantics, and its reference gradient estimates surrogate-specific bias. DeBias-Attack removes the aligned projection of the main gradient on the reference gradient before updating the adversarial image, then performs context-aware text substitution using the updated adversarial image. DeBias-Attack is the first transfer-based VLP attack that corrects surrogate-specific bias through gradient correction. Experiments show strong performance across VLP models, downstream tasks, and open-source and closed-source multimodal large language models.
- Abstract(参考訳): 逆の例では、VLP(Vision-Language Pre-Training)モデルの脆弱性を明らかにし、堅牢性を改善するための洞察を提供する。
重要な特性は、トランスファーベースのブラックボックス攻撃を可能にするクロスモデル転送性である。
しかし、既存の攻撃はサロゲートモデルに大きく依存し、クロスモデルのパフォーマンス低下を引き起こします。
一つの理由は、敵の最適化が入力セマンティクスよりもサロゲートモデル応答に従うため、更新方向がサロゲートに有効であるが、見当たらないターゲットに転送できないことである。
我々はこの依存関係を代理特化バイアスと呼ぶ。
この観測により、DeBias-Attackは、対向最適化方向の代理特異的バイアスを補正することにより、転送性を向上させる。
2つの摂動枝を保有している。
主枝は、原画像上の摂動を最適化し、画像テキストのアライメントを乱すのに使用される逆勾配を求める。
参照ブランチは、各イテレーションで小さなガウス雑音が再サンプリングされたデータセット平均画像から構築された弱semantic画像上の摂動を最適化する。
この弱セマンティック画像は明確な視覚内容はほとんど含まないため、その最適化は画像意味論よりも代理応答を反映し、参照勾配は代理固有バイアスを推定する。
DeBias-Attackは、対応する画像を更新する前に、基準勾配上の主勾配の整列投影を除去し、更新された逆画像を用いてコンテキスト対応のテキスト置換を行う。
DeBias-Attackは、勾配補正によって代理特異的バイアスを修正する最初の転送ベースのVLP攻撃である。
実験では、VLPモデル、ダウンストリームタスク、オープンソースおよびクローズドソースのマルチモーダルな大規模言語モデルに対して、強いパフォーマンスを示す。
関連論文リスト
- Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge [59.247871132422006]
逆拡散法と拡散反転法は、未ペア画像から画像への変換を先進的に進めているが、それぞれが鍵となる制限に直面している。
本稿では,外部意味を拡散ブリッジモデルに統合する汎用フレームワークであるSelf-Supervised Semantic Bridge (SSB)を提案する。
我々のキーとなる考え方は、自己教師付き視覚エンコーダを活用して、外観変化に不変な表現を学習するが、幾何学的構造を捉えることである。
論文 参考訳(メタデータ) (2026-02-18T18:05:00Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Boosting the Local Invariance for Better Adversarial Transferability [4.75067406339309]
トランスファーベースの攻撃は、現実世界のアプリケーションに重大な脅威をもたらす。
LI-Boost (Local Invariance Boosting approach) と呼ばれる一般対向転送可能性向上手法を提案する。
標準のImageNetデータセットの実験では、LI-Boostがさまざまなタイプの転送ベースの攻撃を著しく強化できることが示された。
論文 参考訳(メタデータ) (2025-03-08T09:44:45Z) - Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack [51.16384207202798]
視覚言語事前学習モデルは多モーダル逆例(AE)に対して脆弱である
従来のアプローチでは、画像とテキストのペアを拡大して、敵対的なサンプル生成プロセス内での多様性を高めている。
本稿では, 敵の多様性を高めるために, クリーン, ヒストリ, および現在の敵の例からなる敵の進化三角形からのサンプリングを提案する。
論文 参考訳(メタデータ) (2024-11-04T23:07:51Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Enhancing the Self-Universality for Transferable Targeted Attacks [88.6081640779354]
本手法は,高次対角的摂動が標的攻撃に対してより伝達しやすい傾向にあることを示す。
異なる画像上の摂動を最適化する代わりに、異なる領域を最適化して自己ユニバーシティを実現することで、余分なデータを排除することができる。
特徴的類似性欠如により,本手法は,良性画像よりも対向性摂動の特徴が支配的となる。
論文 参考訳(メタデータ) (2022-09-08T11:21:26Z) - Adversarial Pixel Restoration as a Pretext Task for Transferable
Perturbations [54.1807206010136]
トランスファー可能な敵攻撃は、事前訓練された代理モデルと既知のラベル空間から敵を最適化し、未知のブラックボックスモデルを騙す。
本稿では,効果的なサロゲートモデルをスクラッチからトレーニングするための自己教師型代替手段として,Adversarial Pixel Restorationを提案する。
我々のトレーニングアプローチは、敵の目標を通したオーバーフィッティングを減らすmin-maxの目標に基づいています。
論文 参考訳(メタデータ) (2022-07-18T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。