論文の概要: The Watermark Shortcut: How Provenance Marking Sabotages Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2606.23335v1
- Date: Mon, 22 Jun 2026 13:42:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:31:06.235124
- Title: The Watermark Shortcut: How Provenance Marking Sabotages Audio Deepfake Detection
- Title(参考訳): ウォーターマークショートカット:音のディープフェイクを検知するプロヴァンス・マーキング・サボタージュ
- Authors: Nicolas M. Müller, Pascal Debus,
- Abstract要約: プロヴァンス・ウォーターマーキングは、合成音声のセーフガードとして扱われることが多い。
合成音声が透かしであり、人間の発話がそうでないとき、ウォーターマークにラッチを付けて訓練された検出器は、刺激的な「マークフェイク」ショートカットである。
両クラスにおける透かしによる再トレーニングは,それと相関し,クリーンな振る舞いを復元することを示す。
- 参考スコア(独自算出の注目度): 5.288260916272508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Provenance watermarking is increasingly treated as a safeguard for synthetic speech, whether built directly into speech-generation models such as Chatterbox, provided through dedicated techniques such as AudioSeal, or deployed by commercial platforms such as ElevenLabs. We identify a previously uncharacterized liability: when synthetic speech is watermarked and human speech is not, detectors trained alongside latch onto the watermark as a spurious "watermark => fake" shortcut. This single feature yields three coupled failures: generalization degradation (model performance deteriorates on unseen data), strip-to-evade (a watermarked fake escapes once unwatermarked), and mark-to-frame (watermarking a real voice flags it as fake). In a controlled white-box experiment, a watermark-trained detector shows all three (for example, mark-to-frame lifts Equal Error Rate from 16% to 75%). In a black-box test of a commercial API, we show that adding a watermark to real speech disguises it as fake. However, this shortcut is fixable: retraining with the watermark on both classes decorrelates it and restores clean behavior. We release experiment data as a paired clean-versus-watermarked corpus (WASP).
- Abstract(参考訳): プロヴァンス透かしは、Chatterboxのような音声生成モデルに直接組み込まれ、AudioSealのような専用の技術によって提供されるか、ElevenLabsのような商用プラットフォームによって展開されるか、合成音声のセーフガードとして扱われる。
合成音声がウォーターマークされ、人間の発話がそうでないとき、ウォーターマークにラッチを付けて訓練された検出器は、スプリアス的な「ウォーターマーク=>フェイク」ショートカットである。
この単一機能は、一般化劣化(モデルパフォーマンスは、目に見えないデータで劣化する)、ストリップ・トゥ・エバード(透かしのある偽のエスケープ)、マーク・トゥ・フレーム(本物の音声フラグが偽のものであることを示す)の3つの結合障害をもたらす。
制御されたホワイトボックス実験では、透かしで訓練された検出器が3つすべてを表示する(例えば、マーク・ツー・フレームリフトは16%から75%の誤差率で上昇する)。
商用APIのブラックボックステストでは、実際の音声に透かしを追加すると、それを偽装することを示した。
しかし、このショートカットは固定可能であり、両方のクラスの透かしで再トレーニングすることは、それをデコレーションし、クリーンな振る舞いを復元する。
We release experiment data as a paired clean-versus-watermarked corpus (WASP)。
関連論文リスト
- Audio Pirates: Black-box Audio Watermark Removal via Diffusion Priors [44.562700127905295]
対象の透かし方式の知識を前提としないブラックボックス型透かし除去攻撃であるDiffEraseを提案する。
DiffEraseは複数のオーディオ領域にまたがる知覚品質を維持しながら、常に透かしを除去する。
これらの知見は,拡散型脅威を考慮した将来の音声透かし設計の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2026-05-28T22:07:32Z) - Hidden in Plain Tokens: Simply Robust, Gradient-Free Watermark for Synthetic Audio [58.612001688217056]
自己回帰モデルに対する推論時透かしは、離散化の不整合による連続的なモダリティには適さない。
合成音声の強力で堅牢な透かしのためのエレガントな解法を提案する。
論文 参考訳(メタデータ) (2026-05-25T15:43:20Z) - SSCL-BW: Sample-Specific Clean-Label Backdoor Watermarking for Dataset Ownership Verification [8.045712223215542]
本稿では,サンプル特異的クリーンラベルバックドア透かし(SSCL-BW)を提案する。
U-Netベースの透かしサンプルジェネレータをトレーニングすることにより,サンプル毎に独自の透かしを生成する。
ベンチマークデータセットを用いた実験は,提案手法の有効性と潜在的な透かし除去攻撃に対する頑健性を示す。
論文 参考訳(メタデータ) (2025-10-30T12:13:53Z) - Robustness of AI-Image Detectors: Fundamental Limits and Practical
Attacks [47.04650443491879]
我々は、透かしやディープフェイク検出器を含む様々なAI画像検出器の堅牢性を分析する。
ウォーターマーキング手法は,攻撃者が実際の画像をウォーターマーキングとして識別することを目的としたスプーフ攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2023-09-29T18:30:29Z) - On the Reliability of Watermarks for Large Language Models [95.87476978352659]
本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。
人や機械の言い回しをしても、透かしは検出可能である。
また、大きな文書に埋め込まれた透かし付きテキストの短いスパンに敏感な新しい検出手法についても検討する。
論文 参考訳(メタデータ) (2023-06-07T17:58:48Z) - Invisible Image Watermarks Are Provably Removable Using Generative AI [47.25747266531665]
Invisibleの透かしは、所有者によってのみ検出可能な隠されたメッセージを埋め込むことで、画像の著作権を保護する。
我々は、これらの見えない透かしを取り除くために、再生攻撃のファミリーを提案する。
提案手法は,まず画像にランダムノイズを加えて透かしを破壊し,画像を再構成する。
論文 参考訳(メタデータ) (2023-06-02T23:29:28Z) - Tree-Ring Watermarks: Fingerprints for Diffusion Images that are
Invisible and Robust [55.91987293510401]
生成モデルのアウトプットを透かしは、著作権をトレースし、AI生成コンテンツによる潜在的な害を防ぐ重要なテクニックである。
本稿では,拡散モデル出力を頑健にフィンガープリントするTree-Ring Watermarkingという新しい手法を提案する。
私たちの透かしは画像空間に意味的に隠れており、現在デプロイされている透かしよりもはるかに堅牢です。
論文 参考訳(メタデータ) (2023-05-31T17:00:31Z) - Certified Neural Network Watermarks with Randomized Smoothing [64.86178395240469]
本稿では,ディープラーニングモデルのための認証型透かし手法を提案する。
我々の透かしは、モデルパラメータが特定のl2しきい値以上変更されない限り、取り外し不可能であることが保証されている。
私たちの透かしは、従来の透かし法に比べて経験的に頑丈です。
論文 参考訳(メタデータ) (2022-07-16T16:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。