論文の概要: One Jailbreak, Many Tongues: Learning Language-Insensitive Intention Representations for Multilingual Jailbreak Detection
- arxiv url: http://arxiv.org/abs/2606.11202v1
- Date: Wed, 22 Apr 2026 06:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.827052
- Title: One Jailbreak, Many Tongues: Learning Language-Insensitive Intention Representations for Multilingual Jailbreak Detection
- Title(参考訳): 一つのジェイルブレイクと多くの舌:多言語ジェイルブレイク検出のための言語非依存の意図表現を学習する
- Authors: Shuyu Jiang, Kaiyu Xu, Xingshu Chen, Hao Ren, Rui Tang, Yi Zhang, Tianwei Zhang, Hongwei Li,
- Abstract要約: 大規模言語モデル(LLM)は、グローバルな多言語ユーザ向けのアプリケーションにますますデプロイされているが、安全トレーニングは支配的な言語に集中している。
MLJailDeは多言語的ロバスト性と多言語間一般化の両方を改善するために設計された多言語ジェイルブレイク検出フレームワークである。
MLJailDeは、複数の言語で最先端のベースラインを上回り、98.5%のF1スコアを獲得し、目に見えない言語では平均97.1%のF1スコアを得る。
- 参考スコア(独自算出の注目度): 23.956445065795652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in applications for global multilingual users, yet safety training remains concentrated in dominant languages and has not progressed in parallel with multilingual capability, creating exploitable gaps for jailbreak attacks. Current jailbreak defenses are largely developed and evaluated in dominant languages, and their effectiveness is limited by the scarcity of aligned multilingual supervision and representations dispersion caused by language variation. To address this issue, we propose MLJailDe, a multilingual jailbreak detection framework designed to improve both multilingual robustness and cross-lingual generalization. MLJailDe first introduces a multilingual back-translation data augmentation algorithm to construct a semantically consistent and functionally effective dataset spanning 11 languages, consisting of 2,232 benign and 1,239 jailbreak samples. On this basis, MLJailDe employs relative-distance constraints to reduce cross-lingual representation dispersion and encourage jailbreak prompts with similar intent to form consistent clusters across languages, while an imbalance-aware classification objective is further used to alleviate class imbalance and learn more reliable multilingual decision boundaries. Experimental results show that MLJailDe outperforms state-of-the-art baselines across multiple languages, achieving an F1 score of 98.5\%, and obtains an average F1 score of 97.1\% on unseen languages, demonstrating strong effectiveness and cross-lingual generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、グローバルな多言語ユーザのためのアプリケーションにますますデプロイされているが、安全トレーニングは支配的な言語に集中しており、マルチ言語機能と並行して進行しておらず、ジェイルブレイク攻撃の悪用可能なギャップを生み出している。
現在のジェイルブレイク防御は支配的な言語でほとんど開発され評価されており、その効果は言語の変化による多言語的監督と表現の分散の欠如によって制限されている。
この問題を解決するためにMLJailDeを提案する。MLJailDeは多言語的ロバスト性と多言語間一般化の両方を改善するために設計された多言語ジェイルブレイク検出フレームワークである。
MLJailDeはまず、意味論的に一貫性があり、機能的に有効なデータセットを構築するために、多言語によるバックトランスレーションデータ拡張アルゴリズムを導入している。
このベースでMLJailDeは、言語間表現の分散を減らし、言語間で一貫したクラスタを形成するという同様の意図でjailbreakプロンプトを促進するために、相対距離制約を採用する。
実験の結果、MLJailDeは複数の言語で最先端のベースラインを上回り、F1スコアは98.5\%、平均F1スコアは97.1\%となり、強い効果と言語間一般化を示すことがわかった。
関連論文リスト
- Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models [37.24612885977265]
マルチモーダル大規模言語モデルでは、視覚認識を言語推論に統合し、敵対的攻撃を受けやすい連続的な攻撃面を導入する。
MLLMの以前の研究は、主に英語中心のタスクに焦点を合わせており、多言語的な振る舞いは未調査のままである。
本研究は,12言語にまたがる対向的ロバスト性とマルチモーダル安全性について検討し,インストラクションチューニングによる多言語能力を得るオープンソースMLLMを評価した。
論文 参考訳(メタデータ) (2026-06-02T15:42:10Z) - Cross-Lingual Jailbreak Detection via Semantic Codebooks [0.0]
大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。
本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-28T14:43:40Z) - Multilingual Collaborative Defense for Large Language Models [39.28665703568305]
注目すべき脆弱性の1つは、有害なクエリを稀で表現不足の言語に翻訳することで、セーフガードを回避できることである。
懸念が高まっているにもかかわらず、多言語シナリオにおけるLLMの保護に対処する研究は限られている。
本稿では,連続的かつソフトな安全プロンプトを自動で最適化する新しい学習手法であるMCDを提案する。
論文 参考訳(メタデータ) (2025-05-17T04:47:16Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。