論文の概要: Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP Backdoors
- arxiv url: http://arxiv.org/abs/2606.17815v1
- Date: Tue, 16 Jun 2026 11:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.404545
- Title: Beyond Native Success: Auditing Deployment-Interface Exposure of CLIP Backdoors
- Title(参考訳): ネイティブな成功を超えて - CLIPバックドアのデプロイとインターフェースの公開を監査
- Authors: Kunlan Xiang, Haomiao Yang, Wenbo Jiang,
- Abstract要約: DIFEは、デプロイインターフェース間でバックドアのCLIPチェックポイントを監査するフレームワークである。
BadTextTowerは、ビジュアルのみの再利用をほとんどクリーンにしながら、強力なテキスト条件付き検索、再ランク付け、選択露出を生成する。
- 参考スコア(独自算出の注目度): 4.863107779276584
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-training models are widely reused across downstream interfaces, including feature extraction, retrieval, reranking, and selection. Existing CLIP backdoor, however, usually validate attacks on a small attack-native task, leaving unclear whether the same poisoned checkpoint remains exposed, weakens, or becomes not applicable when reused through other interfaces. We introduce DIFE, a Deployment-Interface Footprint Evaluation framework that audits backdoored CLIP checkpoints across deployment interfaces. DIFE makes various evaluations comparable by specifying each interface's component readout, trigger channel, target event, reference condition, and metric. DIFE also introduces effective-footprint diagnosis to identify the reusable CLIP component or component combination that carries exposure and explains where risk transfers. Auditing reproduced CLIP backdoors with DIFE reveals a structured landscape: native success is not a checkpoint-level risk certificate, exposure follows component footprints, text-side poisoning does not yield textual-encoder control, and some coupled attacks remain mechanism-bound. This audit reveals a import gapin existing CLIP backdoors: a textual encoder that itself becomes a reusable carrier of adversarial behavior. We therefore introduce BadTextTower to fill this gap. BadTextTower produces strong text-conditioned retrieval, reranking, and selection exposure while leaving visual-only reuse nearly clean.
- Abstract(参考訳): コントラスト言語-イメージ 事前学習モデルは、特徴抽出、検索、再ランク付け、選択など、下流インターフェイスで広く再利用されている。
しかし、既存のCLIPバックドアは、通常、小さな攻撃ネイティブなタスクに対する攻撃を検証する。
デプロイメントインターフェース全体にわたってバックドアのCLIPチェックポイントを監査する、Deployment-Interface Footprint EvaluationフレームワークであるDIFEを紹介します。
DIFEは、各インターフェースのコンポーネントの読み出し、トリガーチャネル、ターゲットイベント、参照条件、メトリックを指定することで、さまざまな評価に匹敵する。
DIFEはまた、効果的なフットプリント診断を導入し、再利用可能なCLIPコンポーネントまたは露出を伴うコンポーネントの組み合わせを特定し、リスク転送の場所を説明する。
ネイティブな成功はチェックポイントレベルのリスク証明書ではなく、コンポーネントフットプリントに従って露出し、テキストサイドの中毒はテキストエンコーダコントロールを生成せず、いくつかの複合攻撃はメカニズムバウンドのままである。
この監査は、既存のCLIPバックドアのインポートギャップを明らかにしている。
したがって、このギャップを埋めるためにBadTextTowerを導入します。
BadTextTowerは、ビジュアルのみの再利用をほとんどクリーンにしながら、強力なテキスト条件付き検索、再ランク付け、選択露出を生成する。
関連論文リスト
- Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors [48.881343993730844]
安全性に整合した大規模言語モデル(LLM)は、現実世界のパイプラインにますますデプロイされている。
敵は通常の評価では動作しないバックドアのチェックポイントを配布することができる。
最近のポストホック重み付け法は、そのようなバックドアを注入するための効率的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-14T06:48:33Z) - RTD-Guard: A Black-Box Textual Adversarial Detection Framework via Replacement Token Detection [9.898508403320438]
本稿では,テキストの逆転を検知する新しいブラックボックスフレームワークRTD-Guardを紹介する。
我々の重要な洞察は、敵攻撃における単語置換摂動は、置換トークン検出識別器が識別するために事前訓練されている「置換トークン」によく似ているということである。
プロセス全体では、敵データ、モデルチューニング、内部モデルアクセスは必要とせず、2つのブラックボックスクエリのみを使用する。
論文 参考訳(メタデータ) (2026-03-13T02:30:56Z) - Compartmentalization-Aware Automated Program Repair [11.190237609876498]
本稿では,大規模言語モデル (LLM) がクロスコンパートメントインタフェースの確保に有効であることを示す。
本稿では,インターフェースの安全性を補完する新しいAPRフレームワークの設計,実装,および初期の成果について述べる。
論文 参考訳(メタデータ) (2026-03-10T11:55:23Z) - Beyond Input Guardrails: Reconstructing Cross-Agent Semantic Flows for Execution-Aware Attack Detection [32.301679396929536]
静的な入力フィルタリングから実行対応分析へ、防御パラダイムをシフトするフレームワークであるSysNameを提案する。
SysNameは断片化された操作プリミティブを連続した行動軌跡に合成し、システムアクティビティの全体像を可能にする。
実証的な評価により、SysNameは10以上の異なる複合攻撃ベクトルを効果的に検出し、それぞれノードレベルとパスレベルのエンドツーエンド攻撃検出に対して85.3%と66.7%のF1スコアを達成した。
論文 参考訳(メタデータ) (2026-03-04T01:59:16Z) - SWAP: Towards Copyright Auditing of Soft Prompts via Sequential Watermarking [58.475471437150674]
ソフトプロンプト(SWAP)のための逐次透かしを提案する。
SWAPは、特定のディフェンダー指定のアウト・オブ・ディストリビューション・クラスを通じて、透かしを符号化する。
11のデータセットの実験では、SWAPの有効性、無害性、および潜在的適応攻撃に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-05T13:48:48Z) - CANTXSec: A Deterministic Intrusion Detection and Prevention System for CAN Bus Monitoring ECU Activations [53.036288487863786]
物理ECUアクティベーションに基づく最初の決定論的侵入検知・防止システムであるCANTXSecを提案する。
CANバスの古典的な攻撃を検知・防止し、文献では調査されていない高度な攻撃を検知する。
物理テストベッド上での解法の有効性を実証し,攻撃の両クラスにおいて100%検出精度を達成し,100%のFIAを防止した。
論文 参考訳(メタデータ) (2025-05-14T13:37:07Z) - Test-Time Multimodal Backdoor Detection by Contrastive Prompting [15.878513862121602]
マルチモーダルコントラスト学習法(例えばCLIP)は、バックドア攻撃に対して脆弱である。
対照的なプロンプトに基づく新しいテスト時間バックドア検出手法であるBDetCLIPを提案する。
提案するBDetCLIPは,有効性と効率の両面で最先端のバックドア検出法よりも優れている。
論文 参考訳(メタデータ) (2024-05-24T06:52:54Z) - BadCLIP: Trigger-Aware Prompt Learning for Backdoor Attacks on CLIP [55.33331463515103]
BadCLIPは、CLIPに対するバックドア攻撃において、新しく効果的なメカニズムの上に構築されている。
画像に適用される学習可能なトリガーとトリガー対応コンテキストジェネレータで構成されており、トリガーはトリガー対応プロンプトを通じてテキスト機能を変更することができる。
論文 参考訳(メタデータ) (2023-11-26T14:24:13Z) - CleanCLIP: Mitigating Data Poisoning Attacks in Multimodal Contrastive
Learning [63.72975421109622]
CleanCLIPは、バックドア攻撃によって引き起こされる学習された刺激的関連を弱める微調整フレームワークである。
CleanCLIPは、マルチモーダル・コントラッシブ・ラーニングに対するバックドア・アタックを根絶しながら、良質な例によるモデル性能を維持している。
論文 参考訳(メタデータ) (2023-03-06T17:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。