論文の概要: T2S: A Rehearsal-Based Approach for Extraction-Resistant Model Watermarking
- arxiv url: http://arxiv.org/abs/2606.11698v1
- Date: Wed, 10 Jun 2026 06:22:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.323027
- Title: T2S: A Rehearsal-Based Approach for Extraction-Resistant Model Watermarking
- Title(参考訳): T2S: 抽出抵抗型モデル透かしのリハーサルベースアプローチ
- Authors: Jian-Ping Mei, Weibin Zhang, Ao Yao, Tiantian Zhu, Jie Xiao,
- Abstract要約: モデル透かしは、ユニークな行動シグネチャを誘発する独特な知識を埋め込むことで、AIの知的財産を保護します。
モデル抽出攻撃は最も深刻な脅威として浮上し、敵は予測出力を利用して元のモデルの機能を違法に再現する代理モデルを訓練する。
本稿では,モデル抽出攻撃に対するモデル透かしの堅牢性を高めるためのリハーサルベースの透かし埋め込みフレームワークを提案する。
- 参考スコア(独自算出の注目度): 17.73236657499128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model watermarking safeguards AI model intellectual property by embedding distinctive knowledge that induces unique behavioral signatures. The primary technical challenge lies in ensuring watermark robustness against various post-processing attacks on the watermarked model. Model extraction attacks emerge as the most severe threat, where adversaries exploit prediction outputs to train surrogate models that illegally replicate the original model's functionality. In this work, we propose a rehearsal-based watermark embedding framework to enhance the robustness of model watermarks against model extraction attacks. By simulating the extraction process, our method leverages the loss of a \textit{simulated stolen model} on a trigger set as a training signal to fine-tune the watermark knowledge within the target model. This fine-tuning step encourages the watermark to be embedded in a way that boosts transferability, thereby increasing its chances of persisting and remaining detectable in stolen models. Comprehensive experiments conducted under diverse settings demonstrate that the proposed method significantly improves the robustness of model watermarks against both model extraction and subsequent watermark removal attacks.
- Abstract(参考訳): モデル透かしは、ユニークな行動シグネチャを誘発する独特な知識を埋め込むことで、AIの知的財産を保護します。
主な技術的課題は、ウォーターマークされたモデルに対する様々な後処理攻撃に対するウォーターマークの堅牢性を確保することである。
モデル抽出攻撃は最も深刻な脅威として浮上し、敵は予測出力を利用して元のモデルの機能を違法に再現する代理モデルを訓練する。
本研究では,モデル抽出攻撃に対するモデル透かしの堅牢性を高めるためのリハーサルベースの透かし埋め込みフレームワークを提案する。
抽出過程をシミュレートすることで, ターゲットモデル内の透かしの知識を微調整する訓練信号として, トリガーセット上の「textit{simulated stolen model}」の損失を利用する。
この微調整のステップは、透かしを転送可能性を高める方法で埋め込むことを奨励し、盗難モデルで持続し、検出できる可能性を高める。
本手法は, モデル抽出とその後のウォーターマーク除去攻撃の両方に対して, モデル透かしのロバスト性を大幅に向上することを示す。
関連論文リスト
- Lossless Copyright Protection via Intrinsic Model Fingerprinting [21.898748690761874]
既存の保護手法では、モデルを変更して透かしを埋め込むことでパフォーマンスを損なう。
そこで我々はTrajPrintを提案する。TrajPrintは、ユニークな多様体の指紋を抽出することによって、モデル著作権を検証する、完全に損失のない、トレーニング不要なフレームワークである。
論文 参考訳(メタデータ) (2026-01-29T04:18:07Z) - DeepTracer: Tracing Stolen Model via Deep Coupled Watermarks [14.552367035706283]
本稿では,新しい透かしサンプル構築法と等級結合損失制約を利用する,堅牢な透かしフレームワークDeepTracerを紹介する。
DeepTracerは、ウォーターマークタスクとプライマリタスクとの間に高い結合モデルを持ち込み、敵がメインタスク機能を盗む際に隠れたウォーターマークタスクを学習させる。
モデルオーナシップ検証に使用される透かしキーを精巧に選択して,透かしの信頼性を高める,効果的な透かしサンプルフィルタリング機構を提案する。
論文 参考訳(メタデータ) (2025-11-12T05:06:25Z) - Optimization-Free Universal Watermark Forgery with Regenerative Diffusion Models [50.73220224678009]
ウォーターマーキングは、人工知能モデルによって生成された合成画像の起源を検証するために使用できる。
近年の研究では, 対象画像から表層画像への透かしを, 対角的手法を用いてフォージできることが示されている。
本稿では,最適化フリーで普遍的な透かし偽造のリスクが大きいことを明らかにする。
我々のアプローチは攻撃範囲を大きく広げ、現在の透かし技術の安全性により大きな課題をもたらす。
論文 参考訳(メタデータ) (2025-06-06T12:08:02Z) - AGATE: Stealthy Black-box Watermarking for Multimodal Model Copyright Protection [26.066755429896926]
バックドアの透かしとしてOoD(Out-of-Distribution)データを選択し、著作権保護のためにオリジナルのモデルを再訓練する。
既存の方法は、敵による悪意のある検出と偽造を受けやすいため、透かしの回避につながる。
マルチモーダルモデル著作権保護におけるステルスネスとロバストネスの課題に対処するために,モデル-アンダーラインに依存しないブラックボックスのバックドアWunderlineatermarking Framework (AGATE)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:52:01Z) - Watermarking Recommender Systems [52.207721219147814]
本稿では,レコメンダシステムに特化した新しい手法であるAutoregressive Out-of-Distribution Watermarking (AOW)を紹介する。
提案手法では,初期項目の選択とオラクルモデルによるクエリを行い,その後に予測スコアの小さい項目を選択する。
透かしの有効性を評価するため、このモデルでは、切り捨てられた透かしシーケンスが与えられた後続の項目を予測することを課題とする。
論文 参考訳(メタデータ) (2024-07-17T06:51:24Z) - Towards Robust Model Watermark via Reducing Parametric Vulnerability [57.66709830576457]
バックドアベースのオーナシップ検証が最近人気となり,モデルオーナがモデルをウォーターマークすることが可能になった。
本研究では,これらの透かし除去モデルを発見し,それらの透かし挙動を復元するミニマックス定式化を提案する。
本手法は,パラメトリックな変化と多数のウォーターマーク除去攻撃に対するモデル透かしの堅牢性を向上させる。
論文 参考訳(メタデータ) (2023-09-09T12:46:08Z) - Seeds Don't Lie: An Adaptive Watermarking Framework for Computer Vision
Models [44.80560808267494]
保護モデルに固有の振る舞いを活かして,保護モデルに透かしを施す適応フレームワークを提案する。
この透かしは、同じユニークな振る舞いを持つ抽出されたモデルを検出するために使用され、保護されたモデルのIPを無許可で使用することを示す。
この枠組みは,(1)未知のモデル抽出攻撃,(2)メソッドを実行する抽出モデル(例えば,重み付け)に対して頑健であることを示す。
論文 参考訳(メタデータ) (2022-11-24T14:48:40Z) - Fine-tuning Is Not Enough: A Simple yet Effective Watermark Removal
Attack for DNN Models [72.9364216776529]
我々は異なる視点から新しい透かし除去攻撃を提案する。
我々は、知覚不可能なパターン埋め込みと空間レベルの変換を組み合わせることで、単純だが強力な変換アルゴリズムを設計する。
我々の攻撃は、非常に高い成功率で最先端の透かしソリューションを回避できる。
論文 参考訳(メタデータ) (2020-09-18T09:14:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。