論文の概要: Non-Parametric Machine Text Detection via Multi-View Gaussian Processes
- arxiv url: http://arxiv.org/abs/2606.14060v1
- Date: Fri, 12 Jun 2026 03:11:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.725929
- Title: Non-Parametric Machine Text Detection via Multi-View Gaussian Processes
- Title(参考訳): 多視点ガウスプロセスによる非パラメトリック機械テキストの検出
- Authors: Aleem Khan, Nicholas Andrews,
- Abstract要約: 文書は複数の補完的な信号を持ち、それを抑える攻撃は他人をそのままにしておく。
同じ文書から補完的な特徴ビューを抽出する多視点非パラメトリック検出フレームワークを提案する。
見解にまたがって証拠を集約することにより、敵は同時に複数の独立した検出軸を倒さなければならない。
- 参考スコア(独自算出の注目度): 7.608133101747672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial conditions such as paraphrasing and targeted style transfer sharply degrade the accuracy of machine text detectors. A document, however, carries multiple complementary signals (e.g., stylistic features, likelihood and rank-order features, and structural features), and an attack that suppresses one may leave others intact. While a parametric classifier can learn to combine these features given sufficient supervision, classifiers are prone to making confidently incorrect predictions when the distribution shifts (e.g., novel attacks or unseen language models). To address this, we propose a multi-view, non-parametric detection framework that extracts complementary feature views from the same document and aggregates per-view evidence through a Gaussian process ensemble. By aggregating evidence across views, an adversary must simultaneously defeat multiple independent axes of detection, substantially raising the cost of evasion. The Gaussian process formulation additionally provides calibrated probabilities and principled abstention on out-of-distribution inputs, supporting reliable deployment in high-stakes settings. We evaluate on three benchmarks spanning diverse generators and attacks: the DetectRL and RAID benchmarks, and the PAN2025 shared task and demonstrate that our multi-view detector maintains strong performance under the considered attacks, outperforming existing approaches against held out attacks.
- Abstract(参考訳): パラフレージングやターゲティングスタイル転送といった逆条件は、機械テキスト検出器の精度を著しく低下させる。
しかし、文書には複数の補完的な信号(例えば、スタイリスティックな特徴、可能性と階級順の特徴、構造的な特徴)があり、他人をそのままにしておく攻撃もある。
パラメトリック分類器は、これらの特徴を十分な監督下で組み合わせることを学ぶことができるが、分類器は、分布が変化したとき(例えば、新しい攻撃や見知らぬ言語モデル)に確実に不正確な予測を行う傾向がある。
これを解決するために,同一文書から補完的な特徴ビューを抽出し,ガウス過程のアンサンブルを通じてビュー毎のエビデンスを集約する多視点非パラメトリック検出フレームワークを提案する。
見解にまたがって証拠を集約することにより、敵は複数の独立した検出軸を同時に打ち負かさねばならず、回避のコストを大幅に高めなければならない。
ガウシアンプロセスの定式化は、オフ・オブ・ディストリビューション・インプットに対するキャリブレーションされた確率と原則的棄権を提供し、ハイ・テイク・セッティングにおける信頼性の高いデプロイメントをサポートする。
DetectRLとRAIDベンチマークとPAN2025共有タスクの3つのベンチマークを比較検討し、検討した攻撃下でのマルチビュー検出が強力な性能を維持しており、既存の攻撃に対するアプローチよりも優れていることを示す。
関連論文リスト
- Adversarial Evasion in Non-Stationary Malware Detection: Minimizing Drift Signals through Similarity-Constrained Perturbations [4.8475753151256695]
攻撃者は同時に分類を回避し、ドリフト監視機構に注意を払わない敵のマルウェアサンプルを生成できるのか?
本稿では,高度な類似性正規化器を付加した,分類器の標準特徴空間における逆例を生成する新しい手法を提案する。
我々は、摂動予算が、より高い攻撃成功率とより実質的なドリフト指標で、回避トレードオフに大きな影響を与えることを観察する。
論文 参考訳(メタデータ) (2026-04-23T06:03:50Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - DistriBlock: Identifying adversarial audio samples by leveraging characteristics of the output distribution [16.74051650034954]
アドリアックは、自動音声認識システムを誤認して任意のターゲットテキストを予測する。
本稿では,任意のASRシステムに適用可能な効率的な検出戦略であるDistriBlockを提案する。
提案手法の最高性能は, 受信機動作特性曲線下において, 99%, 97%のクリーン・ノイズデータに対して, ターゲット対向例を識別する平均面積である。
論文 参考訳(メタデータ) (2023-05-26T14:59:28Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Learning to Separate Clusters of Adversarial Representations for Robust
Adversarial Detection [50.03939695025513]
本稿では,最近導入された非破壊的特徴を動機とした新しい確率的対向検出器を提案する。
本稿では,非ロバスト特徴を逆例の共通性と考え,その性質に対応する表現空間におけるクラスターの探索が可能であることを推定する。
このアイデアは、別のクラスタ内の逆表現の確率推定分布を導出し、その分布を確率に基づく逆検出器として活用する。
論文 参考訳(メタデータ) (2020-12-07T07:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。