Fugu-MT 論文翻訳(概要): MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

論文の概要: MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

arxiv url: http://arxiv.org/abs/2606.07706v1
Date: Fri, 05 Jun 2026 10:10:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.297944
Title: MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models
Title（参考訳）: MLingualFC:多言語視覚言語モデルにおけるジェイルブレイク脆弱性の評価
Authors: Rishabh Makwana, Mamta, Deeksha Varshney, Oana Cocarascu,
Abstract要約: Flowchartベースの攻撃はラテン文字言語で高い攻撃成功率を達成する。 Punjabiのような非ラテン文字言語は、ASRがかなり低い。これらの結果は、現在のVLMの安全性メカニズムが言語やモダリティをまたいだ一般化に失敗していることを示している。
参考スコア（独自算出の注目度）: 7.653049926995947
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision-Language Models (VLMs) have demonstrated strong performance across multimodal tasks, yet their safety robustness remains an open challenge. While prior work has shown that structured visual prompts such as flowcharts can effectively jailbreak VLMs, existing studies are largely limited to English-centric settings. In this paper, we introduce MLingualFC, a multilingual multimodal benchmark designed to evaluate jailbreak vulnerabilities of VLMs across diverse languages using structured flowchart representations. MLingualFC encodes harmful instructions into flowchart images across five languages (Hindi, Punjabi, Spanish, Romanian, and German). We evaluate state-of-the-art multilingual VLMs, including Qwen2.5-VL, Gemma-4, and Pangea, under a black-box threat model. Our results reveal significant multilingual safety gaps. Flowchart-based attacks achieve high attack success rates (ASR) in case of Latin script languages, demonstrating that visual encoding of harmful content effectively bypasses safety alignment across languages. In contrast, non-Latin script languages such as Punjabi exhibit substantially lower ASR, suggesting potential limitations in visual text recognition rather than stronger safety alignment. These findings highlight that current VLM safety mechanisms fail to generalize across languages and modalities. Resources are available at https://github.com/Rishabhpm23/MLingualFC
Abstract（参考訳）: VLM(Vision-Language Models)は、マルチモーダルタスクにまたがる強力なパフォーマンスを示しているが、その安全性は依然としてオープンな課題である。以前の研究では、フローチャートのような構造化された視覚的プロンプトが効果的にVLMをジェイルブレイクできることが示されているが、既存の研究は英語中心の設定に限られている。本稿では,構造化フローチャート表現を用いた多言語マルチモーダルベンチマークMLingualFCを提案する。 MLingualFCは、5つの言語(ヒンディー語、パンジャービ語、スペイン語、ルーマニア語、ドイツ語)にわたるフローチャート画像への有害な指示を符号化している。ブラックボックス脅威モデルを用いて,Qwen2.5-VL,Gemma-4,Pangeaを含む最先端多言語VLMを評価した。以上の結果から,多言語間の安全性のギャップが顕著であった。フローチャートをベースとした攻撃は、ラテン文字言語では高い攻撃成功率(ASR)を達成し、有害なコンテンツの視覚的エンコーディングが言語間の安全アライメントを効果的に回避することを示した。対照的に、Punjabiのような非ラテン文字言語はASRがかなり低いことを示し、より強力な安全アライメントではなく、視覚テキスト認識の潜在的な制限を示唆している。これらの結果は、現在のVLMの安全性メカニズムが言語やモダリティをまたいだ一般化に失敗していることを示している。リソースはhttps://github.com/Rishabhpm23/MLingualFCで入手できる。

論文の概要: MLingualFC: Evaluating Jailbreak Vulnerabilities in Multilingual Vision-Language Models

関連論文リスト