論文の概要: Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation
- arxiv url: http://arxiv.org/abs/2606.17188v2
- Date: Wed, 17 Jun 2026 04:29:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 13:57:35.209262
- Title: Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation
- Title(参考訳): 真に多言語ではない:VLM評価における欠落次元としてのスクリプト整合性
- Authors: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina, Rajvee Sheth,
- Abstract要約: Punjabiの3つのアクティブスクリプト間で1,000の厳格な並列画像テキストインスタンスのベンチマークであるPuMVRを紹介した。
モデルは、同じタスクを別のスクリプトで失敗しながら、あるスクリプトで視覚的なタスクを頻繁に解決し、精度の差は16%に達する。
クロススクリプトのインテキスト転送は非常に脆弱で、スクリプトロックされた知識表現が露出する。
- 参考スコア(独自算出の注目度): 0.27998963147546146
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current multilingual evaluations for Vision-Language Models (VLMs) assume a one-to-one mapping between language and orthography, overlooking billions of users of multi-script languages. We introduce PuMVR (Punjabi Multimodal Visual Reasoning), a benchmark of 1,000 strictly parallel image-text instances across Punjabi's three active scripts: Gurmukhi, Shahmukhi, and Roman. Evaluating 10 state-of-the-art VLMs, we expose a substantial and systematic Script Gap. Models frequently solve visual tasks in one script while failing identical tasks in another, with accuracy deltas reaching 16%. Crucially, visual input boosts absolute performance uniformly yet does not close the orthographic gap. Furthermore, cross-script in-context transfer is highly brittle, exposing script-locked knowledge representation. Supported by McNemar tests across all script pairs, our findings demonstrate that current "multilingual" VLMs are not truly multi-script. We propose the Script Consistency Rate (SCR), which falls as low as 24.8% on our benchmark, as a mandatory metric for script-agnostic evaluation to ensure equitable AI access. Data and code are available at: https://github.com/prabhjotschugh/Not-Truly-Multilingual-PuMVR.
- Abstract(参考訳): VLM(Vision-Language Models)の現在の多言語評価では、言語と正書法を1対1でマッピングし、数十億のマルチスクリプト言語ユーザを見下ろしている。
PuMVR(Punjabi Multimodal Visual Reasoning)は、Punjabiの3つのアクティブスクリプト(Gurmukhi、Shahmukhi、Roman)間で1,000の厳密な並列画像テキストインスタンスのベンチマークである。
最先端の10のVLMを評価し、実質的で体系的なScript Gapを公開する。
モデルは、同じタスクを別のスクリプトで失敗しながら、あるスクリプトで視覚的なタスクを頻繁に解決し、精度の差は16%に達する。
重要なことは、視覚入力は絶対的なパフォーマンスを均一に向上させるが、正書法的なギャップを閉じることはない。
さらに、クロススクリプトのインテキスト転送は非常に脆弱で、スクリプトロックされた知識表現が露出する。
すべてのスクリプトペアでMcNemarテストがサポートしている結果,現在のVLMは真のマルチスクリプトではないことが判明した。
我々は,同値なAIアクセスを確保するために,スクリプトに依存しない評価のための必須基準として,ベンチマークで24.8%まで低下するスクリプト一貫性率(SCR)を提案する。
データとコードは、https://github.com/prabhjotschugh/Not-Truly-Multilingual-PuMVRで入手できる。
関連論文リスト
- GlotOCR Bench: OCR Models Still Struggle Beyond a Handful of Unicode Scripts [58.92151016423978]
我々は100以上のUnicodeスクリプトでOCRを評価する総合ベンチマークであるGlotOCR Benchを紹介する。
我々のベンチマークは、実際の多言語テキストからレンダリングされたクリーンで劣化した画像の変種で構成されている。
オープンウェイトでプロプライエタリなビジョン言語モデルを幅広く評価した結果,ほとんどの場合,10文字未満でうまく動作することがわかった。
論文 参考訳(メタデータ) (2026-04-14T17:12:41Z) - MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios [72.8160644291677]
我々は,多言語デジタルおよび写真文書解析のための最初のベンチマークであるMultilingual Document Parsing Benchmarkを紹介する。
MDPBenchは17言語にまたがる3,400のドキュメントイメージ、多様なスクリプト、さまざまな写真条件で構成されている。
論文 参考訳(メタデータ) (2026-03-30T07:47:46Z) - Linear Script Representations in Speech Foundation Models Enable Zero-Shot Transliteration [70.84108518476744]
我々は,スクリプトが多言語音声モデルのアクティベーション空間に線形に符号化されていることを示し,推論時にアクティベーションを変更することで,出力スクリプトを直接制御できることを示した。
本稿では,Whisperの全モデルサイズにまたがる競合性能を観測し,音声認識出力のスクリプトに対するポストホック制御を実現する手法を提案する。
論文 参考訳(メタデータ) (2026-01-06T10:45:04Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。