論文の概要: The Unseen Hand: Manipulating Model Fairness and SHAP with Targeted Identity Re-Association Attacks
- arxiv url: http://arxiv.org/abs/2606.22858v1
- Date: Mon, 22 Jun 2026 05:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:06:41.666732
- Title: The Unseen Hand: Manipulating Model Fairness and SHAP with Targeted Identity Re-Association Attacks
- Title(参考訳): 目に見えない手: モデルフェアネスとSHAPのターゲットID再連想攻撃による操作
- Authors: Sannaan Khan, Muhammad U. S. Khan,
- Abstract要約: 我々は、モデルの内部や特徴表現へのアクセスを必要とせずに、モデルの出力を操作する新しい攻撃ファミリーであるTIRAアタック(Targeted Identity Re-Association)を導入する。
我々は、TIRAアタックが、理想値へのフェアネス指標の押し付けに非常に効果的であることを実証的に実証した。重要なことに、TIRAアタックはSHAPベースの説明をうまく理解し、保護された特徴に対する事実上の残差属性を残し、前回の作業よりも大幅に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As machine learning models grow more influential and opaque, algorithmic fairness and explainability are critical for ensuring accountability. However, we demonstrate that these auditing mechanisms are themselves vulnerable to subtle manipulation, camouflaging the influence of protected features. While prior work on data-agnostic attacks has exposed this vulnerability, they leave behind detectable artifacts that compromise their stealth. We introduce Targeted Identity Re-Association (TIRA) attacks, a novel family of attacks that iteratively and probabilistically manipulate a model's outputs without requiring access to the model's internals or feature representations. We formalize two algorithms: Probabilistic Micro-Shuffling (PMiS), which applies localized adjacent swaps, and Probabilistic Rank-Shift Micro-Perturbation (PRSMP), which introduces small, randomized rank shifts. We empirically demonstrate that TIRA attacks are highly effective at pushing fairness metrics towards ideal values. Crucially, TIRA attacks successfully confound SHAP-based explanations, leaving effectively zero residual attribution for protected features, a major improvement over prior work.
- Abstract(参考訳): 機械学習モデルがより影響力と不透明さを増すにつれ、アルゴリズムの公正性と説明可能性は説明責任の確保に不可欠である。
しかし,これらの監査機構は微妙な操作に対して脆弱であり,保護された特徴の影響を反映していることを示す。
データに依存しない攻撃に関する以前の研究は、この脆弱性を暴露したが、彼らはその盗みを侵害する検出可能なアーティファクトを残した。
我々は、モデルの内部や特徴表現へのアクセスを必要とせずに、モデル出力を反復的かつ確率的に操作する新しい攻撃ファミリーであるTIRAアタック(Targeted Identity Re-Association)を導入する。
我々は、局所的な隣接スワップを応用した確率的マイクロシャッフル(PMiS)と、小さなランダムなランクシフトを導入した確率的ランクシフトマイクロ摂動(PRSMP)の2つのアルゴリズムを定式化する。
我々は、TIRA攻撃がフェアネス指標を理想的な値へ押し上げるのに非常に効果的であることを実証的に実証した。
重要なこととして、TIRAはSHAPベースの説明を裏付けることに成功し、保護された特徴に対する事実上の残余属性を残らず、以前の作業よりも大幅に改善した。
関連論文リスト
- Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Variance-Based Defense Against Blended Backdoor Attacks [0.0]
バックドア攻撃は、AIモデルをターゲットにした微妙ながら効果的なサイバー攻撃のクラスである。
本稿では,与えられたデータセット上でモデルをトレーニングし,有毒なクラスを検出し,攻撃トリガの重要部分を抽出する新しい防御手法を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:01:35Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - The Adversarial Implications of Variable-Time Inference [47.44631666803983]
本稿では,攻撃対象のMLモデルの予測を後処理するアルゴリズムの実行時間を簡単に計測する,新たなサイドチャネルを利用するアプローチを提案する。
我々は,物体検出装置の動作において重要な役割を果たす非最大抑圧(NMS)アルゴリズムからの漏れを調査する。
我々は、YOLOv3検出器に対する攻撃を実演し、タイミングリークを利用して、逆例を用いてオブジェクト検出を回避し、データセット推論を行う。
論文 参考訳(メタデータ) (2023-09-05T11:53:17Z) - On the Alignment of Group Fairness with Attribute Privacy [1.6574413179773757]
グループフェアネスとプライバシは、信頼できる機械学習モデルを設計する上での基本的な側面である。
ブラックボックスの設定において、グループフェアネスと属性プライバシという特定のプライバシー概念との整合性を初めて示す。
論文 参考訳(メタデータ) (2022-11-18T13:00:34Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。