論文の概要: OTTER: A Red-Teaming System for Toxicity-Evading Jailbreak Prompt Optimization
- arxiv url: http://arxiv.org/abs/2606.21077v1
- Date: Fri, 19 Jun 2026 03:55:08 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:14:02.970113
- Title: OTTER: A Red-Teaming System for Toxicity-Evading Jailbreak Prompt Optimization
- Title(参考訳): OTTER: トキシシティ・エベイディング・ジェイルブレイク・プロンプト最適化のためのレッドチームシステム
- Authors: Jerry Wang, Hsin-Ling Hsu, Yi-Cheng Lai, Nai-Chia Chen, Fang Yu,
- Abstract要約: 5個のトークンを交換することで表面毒性と対向意図を分離できることを示す。
標準APIアクセスのみを必要とするブラックボックスのレッドチームフレームワークであるOTTERを提示する。
毒性--バイパス関係とカテゴリーごとの分解の定量的解析を行った。
- 参考スコア(独自算出の注目度): 1.5140372490736642
- License:
- Abstract: Production LLMs increasingly rely on toxicity-based moderation filters as a primary defense, assuming that harmful intent correlates with toxic surface wording. We show this assumption is fundamentally brittle: surface toxicity and adversarial intent can be decoupled by replacing as few as five tokens. We present OTTER (Obfuscated Toxicity-Evading Token Evolution for Rewriting), a black-box red-teaming framework requiring only standard API access, directly targeting the practical constraints of industry security audits. Evaluated on 457 AdvBench prompts across four GPT models, OTTER raises average ASR from 7.0% to 84.0%. We further provide the first quantitative analysis of the toxicity--bypass relationship and a per-category breakdown, translating our findings into actionable recommendations for classifier hardening in production deployments.
- Abstract(参考訳): 生産LSMは、有害な意図が有毒な表面の言葉と相関していると仮定して、毒性に基づくモデレーションフィルターを主要な防御として頼りにしている。
この仮定は基本的に不安定であり、表面毒性と敵対意図は5つのトークンを交換することで分離することができる。
業界セキュリティ監査の実践的制約を直接ターゲットとして,標準APIアクセスのみを必要とするブラックボックスレッドチームフレームワークOTTER(Obfuscated Toxicity-Evading Token Evolution for Rewriting)を提案する。
4つのGPTモデルで457 AdvBenchのプロンプトを評価すると、OTTERは平均ASRを7.0%から84.0%に引き上げる。
さらに,本研究で得られた知見を,製品展開における分類器硬化のための実用的なレコメンデーションに翻訳し,毒性-バイパス関係とカテゴリーごとの分解を定量的に分析した。
関連論文リスト
- Discern Truth from Falsehood: Reducing Over-Refusal via Contrastive Refinement [14.1763272695827]
大規模な言語モデル (LLM) は、しばしば過剰な拒絶に悩まされる。
この振る舞いはモデルの有用性を損なうものであり、センシティブまたはニュアンスドコンテキストにおけるユーザビリティを制限する。
我々は、この問題は、モデルの学習力学に有毒で一見有毒なプロンプトのあいまいな影響から生じると論じる。
論文 参考訳(メタデータ) (2026-02-10T05:53:10Z) - Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework [58.01529356381494]
Toxicity Association Graphs (TAG) に基づく新しい検出フレームワークを提案する。
隠れ毒性の定量化のための最初の指標であるMTC(Multimodal Toxicity Covertness)を紹介する。
本手法は,意思決定プロセスの完全解釈可能性を維持しつつ,隠蔽毒性の正確な同定を可能にする。
論文 参考訳(メタデータ) (2026-02-03T08:54:25Z) - Projecting Out the Malice: A Global Subspace Approach to LLM Detoxification [73.77171973106567]
大規模言語モデル(LLM)は例外的な性能を示すが、有害なコンテンツを生成する固有のリスクを生じさせる。
従来の手法では、パラメータの根底にある有害領域を排除できず、敵の攻撃に弱いモデルを残している。
我々は,このグローバルな部分空間をFFNパラメータから識別・排除することで毒性を緩和する軽量な方法であるGLOSSを提案する。
論文 参考訳(メタデータ) (2026-01-09T09:34:53Z) - Rethinking Toxicity Evaluation in Large Language Models: A Multi-Label Perspective [104.09817371557476]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて印象的な結果を得た。
有害なコンテンツを生み出す可能性には、深刻な安全上の懸念が浮かび上がっている。
毒性検出のための3つの新しいマルチラベルベンチマークを導入する。
論文 参考訳(メタデータ) (2025-10-16T06:50:33Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。
前方伝播中の毒性活性化パターンを動的に検出する。
その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文 参考訳(メタデータ) (2025-05-28T12:37:06Z) - RedDiffuser: Red Teaming Vision-Language Models for Toxic Continuation via Reinforced Stable Diffusion [27.68654681867373]
VLM(Vision-Language Models)は、ジェイルブレイク攻撃に対して脆弱である。
本研究では, 有害な連続性という, この脅威の近親相姦変異について検討する。
有害な連続を誘発する自然界の逆画像を生成するRedDiffuserを提案する。
論文 参考訳(メタデータ) (2025-03-08T13:51:40Z) - How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [2.058058560925183]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。
毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。
我々は,5つの最先端LCMを用いて定量的,定性的な実験評価を行う。
論文 参考訳(メタデータ) (2025-01-03T10:08:49Z) - Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。
LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。
我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文 参考訳(メタデータ) (2023-11-29T06:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。