論文の概要: What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks
- arxiv url: http://arxiv.org/abs/2606.09700v1
- Date: Mon, 08 Jun 2026 16:21:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.500419
- Title: What the Eyes See, the LLMs Miss: Exploiting Human Perception for Adversarial Text Attacks
- Title(参考訳): LLMの失敗は、敵対的テキスト攻撃に対する人間の認識を爆発させる
- Authors: Qin Yang, Lu Malloy, Joshua Lee, Xiaohan Chang, Meisam Mohammady, Doowon Kim, Yuan Hong,
- Abstract要約: 大規模言語モデル(LLM)を利用したコンテンツモデレーションシステムは,有害なオンラインコンテンツに対して重要な防御手段となっている。
人から有害と容易に認識されるコンテンツは、自動モデレーションシステムでは効果的に見えなくなる。
我々は、有害な表現を良質なテキストに埋め込むHPAA(Human-Perceptible Adversarial Attacks)のクラスを導入する。
- 参考スコア(独自算出の注目度): 9.745253975157912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM)-powered content moderation systems have become a critical defense against harmful online content. However, these systems primarily operate on tokenized text and largely ignore the visual cues that humans naturally rely on when interpreting content. We show that this discrepancy creates a fundamental perceptual mismatch: content that is readily recognized as harmful by humans can become effectively invisible to automated moderation systems. To study this vulnerability, we introduce a class of Human-Perceptible Adversarial Attacks (HPAA), in which harmful expressions are embedded into otherwise benign text through visually salient typographic manipulations. Our key insight is that typographic features, including spacing, visual emphasis, and spatial arrangement, can be strategically combined to preserve human recognition of harmful content while substantially reducing machine detectability. Operating in black-box settings with only a small query budget, our attack automatically generates evasive content without requiring model access or gradient information. We evaluate the attack across multiple datasets and ten deployed moderation systems, including commercial APIs and state-of-the-art open-source guardrails. Results reveal a striking gap between human and machine perception: with only three detector queries, generated attacks achieve over 86\% human recognition while maintaining detection rates below 1\% across the evaluated systems. We further conduct ablation studies to identify the typographic factors driving successful evasion, analyze why current moderation architectures fail to capture these signals, and discuss practical defenses. Our findings expose a fundamental blind spot in today's LLM-based moderation ecosystem and highlight need for moderation systems that reason about content in a manner more consistent with human perceptual understanding.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したコンテンツモデレーションシステムは,有害なオンラインコンテンツに対して重要な防御手段となっている。
しかしながら、これらのシステムは、主にトークン化されたテキストで動作し、人間がコンテンツを解釈する際に自然に依存する視覚的手がかりを無視する。
人間の有害と認識されやすいコンテンツは、自動モデレーションシステムでは、効果的に見えなくなる。
この脆弱性を研究するために、視覚的に有意なタイポグラフィー操作によって有害な表現を良質なテキストに埋め込むHPAA(Human-Perceptible Adversarial Attacks)のクラスを導入する。
我々の重要な洞察は、スペーシング、視覚強調、空間配置といったタイポグラフィー的特徴を戦略的に組み合わせることで、有害なコンテンツの人間の認識を保ちながら、機械の検知可能性を大幅に低下させることである。
少ないクエリ予算でブラックボックス設定で運用することで、モデルアクセスや勾配情報を必要とせずに回避コンテンツを自動的に生成する。
商用APIや最先端のオープンソースガードレールを含む、複数のデータセットと10のデプロイモデレーションシステムに対する攻撃を評価します。
3つの検出クエリだけで、生成された攻撃は、評価されたシステム全体で1\%未満の検出率を維持しながら、86\%以上の人間の認識を達成する。
さらに,回避を成功させる要因を特定するためのアブレーション研究を行い,現在のモデレーションアーキテクチャがこれらのシグナルを捕捉できない理由を分析し,実用的な防御について論じる。
我々の発見は、今日のLLMベースのモデレーションエコシステムにおける根本的な盲点を明らかにし、人間の知覚的理解とより整合した方法でコンテンツについて推論するモデレーションシステムの必要性を強調した。
関連論文リスト
- Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation [54.38271718421492]
敵の密輸攻撃は人間とAIの能力ギャップを悪用する。
有害なコンテンツを人間の読みやすい視覚形式にエンコードする。
我々は緩和戦略の予備的な調査を行う。
論文 参考訳(メタデータ) (2026-04-08T11:13:16Z) - Towards Unsupervised Adversarial Document Detection in Retrieval Augmented Generation Systems [0.0]
検索型拡張現実システムは日常生活の不可欠な部分となっている。
コンテキスト文書を操作することは、攻撃を継続し、すべてのユーザーに影響を与えさせる方法である。
攻撃者が操作したいターゲットプロンプトを操作することは、検出を成功させるためには必要ない。
論文 参考訳(メタデータ) (2026-03-17T22:09:37Z) - Towards Inclusive Toxic Content Moderation: Addressing Vulnerabilities to Adversarial Attacks in Toxicity Classifiers Tackling LLM-generated Content [12.26588825477595]
本研究では,様々なマイノリティグループにまたがる多様なデータセットを対象に,細調整のBERTとRoBERTa分類器について検討した。
我々は、敵攻撃技術を用いて脆弱な回路を識別し、敵攻撃に対する性能を向上させる。
モデルは、性能に欠かせないか、攻撃に弱いか、脆弱な頭部を抑えることで、対向入力の性能を向上させることが判明した。
論文 参考訳(メタデータ) (2025-09-16T04:51:18Z) - PRJ: Perception-Retrieval-Judgement for Generated Images [6.940819432582308]
Perception-Retrieval-Judgement (PRJ) は、毒性検出を構造的推論プロセスとしてモデル化するフレームワークである。
PRJは3段階の設計に従っており、まずイメージを記述言語(知覚)に変換し、その後、有害カテゴリーや特徴(検索)に関する外部知識を回収し、最終的に法的または規範的な規則(判断)に基づいて毒性を評価する。
実験の結果,PRJは検出精度とロバスト性において既存の安全チェックを上回り,構造的カテゴリーレベルの毒性解釈を独自に支援していることがわかった。
論文 参考訳(メタデータ) (2025-06-04T08:13:53Z) - SafetyNet: Detecting Harmful Outputs in LLMs by Modeling and Monitoring Deceptive Behaviors [2.07180164747172]
原子力や航空などのリスクの高い産業は、危険なシステム状態を検出するためにリアルタイムモニタリングを使用している。
教師なしアプローチを用いることで、有害なAI出力が発生する前に予測するリアルタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T12:49:58Z) - Illusions of Relevance: Using Content Injection Attacks to Deceive Retrievers, Rerankers, and LLM Judges [52.96987928118327]
検索,リランカー,大型言語モデル(LLM)の埋め込みモデルは,コンテンツインジェクション攻撃に対して脆弱であることがわかった。
主な脅威は,(1) 意味不明な内容や有害な内容の挿入,(2) 関連性を高めるために,問合せ全体あるいはキークエリ用語の挿入,の2つである。
本研究は, 注射内容の配置や関連物質と非関連物質とのバランスなど, 攻撃の成功に影響を与える要因を系統的に検討した。
論文 参考訳(メタデータ) (2025-01-30T18:02:15Z) - Physical Adversarial Attack meets Computer Vision: A Decade Survey [55.38113802311365]
本稿では,身体的敵意攻撃の概要を概観する。
本研究は,身体的敵意攻撃の性能を体系的に評価する第一歩を踏み出した。
提案する評価基準であるhiPAAは6つの視点から構成される。
論文 参考訳(メタデータ) (2022-09-30T01:59:53Z) - Bad Characters: Imperceptible NLP Attacks [16.357959724298745]
敵対的な例のクラスは、ブラックボックスの設定でテキストベースのモデルを攻撃するために使用することができる。
単一の知覚不可能なエンコーディングインジェクションでは、攻撃者は脆弱なモデルの性能を大幅に低下させることができる。
弊社の攻撃は、MicrosoftやGoogleなど、現在展開中の商用システムに対するものだ。
論文 参考訳(メタデータ) (2021-06-18T03:42:56Z) - Measurement-driven Security Analysis of Imperceptible Impersonation
Attacks [54.727945432381716]
本稿では,ディープニューラルネットワークを用いた顔認識システムの実用性について検討する。
皮膚の色,性別,年齢などの要因が,特定の標的に対する攻撃を行う能力に影響を及ぼすことを示す。
また,攻撃者の顔のさまざまなポーズや視点に対して堅牢なユニバーサルアタックを構築する可能性についても検討した。
論文 参考訳(メタデータ) (2020-08-26T19:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。