論文の概要: MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.07706v1
- Date: Fri, 05 Jun 2026 10:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.297944
- Title: MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models
- Title(参考訳): MLingualFC:多言語視覚言語モデルにおけるジェイルブレイク脆弱性の評価
- Authors: Rishabh Makwana, Mamta, Deeksha Varshney, Oana Cocarascu,
- Abstract要約: Flowchartベースの攻撃はラテン文字言語で高い攻撃成功率を達成する。
Punjabiのような非ラテン文字言語は、ASRがかなり低い。
これらの結果は、現在のVLMの安全性メカニズムが言語やモダリティをまたいだ一般化に失敗していることを示している。
- 参考スコア(独自算出の注目度): 7.653049926995947
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated strong performance across multimodal tasks, yet their safety robustness remains an open challenge. While prior work has shown that structured visual prompts such as flowcharts can effectively jailbreak VLMs, existing studies are largely limited to English-centric settings. In this paper, we introduce MLingualFC, a multilingual multimodal benchmark designed to evaluate jailbreak vulnerabilities of VLMs across diverse languages using structured flowchart representations. MLingualFC encodes harmful instructions into flowchart images across five languages (Hindi, Punjabi, Spanish, Romanian, and German). We evaluate state-of-the-art multilingual VLMs, including Qwen2.5-VL, Gemma-4, and Pangea, under a black-box threat model. Our results reveal significant multilingual safety gaps. Flowchart-based attacks achieve high attack success rates (ASR) in case of Latin script languages, demonstrating that visual encoding of harmful content effectively bypasses safety alignment across languages. In contrast, non-Latin script languages such as Punjabi exhibit substantially lower ASR, suggesting potential limitations in visual text recognition rather than stronger safety alignment. These findings highlight that current VLM safety mechanisms fail to generalize across languages and modalities. Resources are available at https://github.com/Rishabhpm23/MLingualFC
- Abstract(参考訳): VLM(Vision-Language Models)は、マルチモーダルタスクにまたがる強力なパフォーマンスを示しているが、その安全性は依然としてオープンな課題である。
以前の研究では、フローチャートのような構造化された視覚的プロンプトが効果的にVLMをジェイルブレイクできることが示されているが、既存の研究は英語中心の設定に限られている。
本稿では,構造化フローチャート表現を用いた多言語マルチモーダルベンチマークMLingualFCを提案する。
MLingualFCは、5つの言語(ヒンディー語、パンジャービ語、スペイン語、ルーマニア語、ドイツ語)にわたるフローチャート画像への有害な指示を符号化している。
ブラックボックス脅威モデルを用いて,Qwen2.5-VL,Gemma-4,Pangeaを含む最先端多言語VLMを評価した。
以上の結果から,多言語間の安全性のギャップが顕著であった。
フローチャートをベースとした攻撃は、ラテン文字言語では高い攻撃成功率(ASR)を達成し、有害なコンテンツの視覚的エンコーディングが言語間の安全アライメントを効果的に回避することを示した。
対照的に、Punjabiのような非ラテン文字言語はASRがかなり低いことを示し、より強力な安全アライメントではなく、視覚テキスト認識の潜在的な制限を示唆している。
これらの結果は、現在のVLMの安全性メカニズムが言語やモダリティをまたいだ一般化に失敗していることを示している。
リソースはhttps://github.com/Rishabhpm23/MLingualFCで入手できる。
関連論文リスト
- Exploring Adversarial Robustness and Safety Alignment in Multilingual Multi-Modal Large Language Models [37.24612885977265]
マルチモーダル大規模言語モデルでは、視覚認識を言語推論に統合し、敵対的攻撃を受けやすい連続的な攻撃面を導入する。
MLLMの以前の研究は、主に英語中心のタスクに焦点を合わせており、多言語的な振る舞いは未調査のままである。
本研究は,12言語にまたがる対向的ロバスト性とマルチモーダル安全性について検討し,インストラクションチューニングによる多言語能力を得るオープンソースMLLMを評価した。
論文 参考訳(メタデータ) (2026-06-02T15:42:10Z) - Cross-Lingual Jailbreak Detection via Semantic Codebooks [0.0]
大規模言語モデル(LLM)の安全性メカニズムは、主に英語中心であり、多言語展開における体系的な脆弱性を生み出している。
本研究では,言語に依存しないセマンティックな類似性によって,リトレーニングや言語固有の適応なしにこのような攻撃を軽減できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-04-28T14:43:40Z) - Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models [54.10540442330978]
既存のベンチマークは、典型的にはマルチリンガルだがテキストのみ、あるいはマルチモーダルだがモノリンガルである。
近年の多言語的赤チームの取り組みは、画像に有害なプロンプトを与えるが、タイポグラフィースタイルの視覚に強く依存している。
10言語にまたがる100,440の有害な画像テキストペアのベンチマークを導入し、明示的に画像支配サブセットとテキスト支配サブセットに分割する。
論文 参考訳(メタデータ) (2026-01-30T09:18:13Z) - VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack [40.68344330540352]
MLLM(Multimodal Large Language Models)は、その強力なクロスモーダル理解と生成能力により、様々な分野で広く使われている。
以前のジェイルブレイク攻撃は、テキストモダルで安全性のリスクを推論しようとする試みだったが、視覚モダルでは同様の脅威がほとんど見過ごされている。
本稿では、MLLMを徐々に外部化し、完全に有害な意図を集約する視覚推論シークエンシャルアタック(VRSA)を提案する。
論文 参考訳(メタデータ) (2025-12-05T16:29:52Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。