論文の概要: Beyond 'One Language, One Script': Quantifying Orthographic Bias in Multilingual VLMs with PuMVR
- arxiv url: http://arxiv.org/abs/2606.20770v1
- Date: Thu, 18 Jun 2026 15:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:01:01.90398
- Title: Beyond 'One Language, One Script': Quantifying Orthographic Bias in Multilingual VLMs with PuMVR
- Title(参考訳): 1言語・1スクリプト」を超えて:PuMVRを用いた多言語VLMにおけるオーソグラフィバイアスの定量化
- Authors: Prabhjot Singh, Bhushan Pawar, Madhu Reddiboina,
- Abstract要約: 現在のVision-Language Modelsは、1つの言語が1つの書き込みシステムに対応するという欠陥のある仮定の下で動作している。
これは、Punjabi、セルビア語、ヒンディー語、ウルドゥー語、クルド語など、数十億のマルチスクリプト言語ユーザーを見落としている。
我々は,375の文化的根拠を持つ画像推論タスクを通じて,スクリプト依存バイアスを定量化する最初のベンチマークであるPuMVRを紹介する。
- 参考スコア(独自算出の注目度): 0.15293427903448023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Vision-Language Models (VLMs) are celebrated for their multilingual capabilities, yet they operate under a flawed assumption: that one language corresponds to a single writing system. This overlooks billions of users of multi-script languages like Punjabi, Serbian, Hindi-Urdu, Kurdish, among many others, for whom a model's capability may be fractured by orthographic bias. We introduce PuMVR (Punjabi Multimodal Visual Reasoning), the first benchmark designed to quantify script-dependent bias through 375 culturally grounded image-reasoning tasks across Punjabi's three active scripts (Gurmukhi, Shahmukhi, Roman). Evaluating 10 state-of-the-art VLMs, we expose a substantial Script Gap: models frequently solve visual puzzles in one script while failing identical tasks in another, with accuracy deltas reaching 16% and Script Consistency Rates (SCR) as low as 24.8%. Crucially, visual input boosts absolute performance but does not close this gap, the relative bias persists. Our analysis suggests reasoning patterns show limited cross-script transferability, and Chain-of-Thought pathways diverge based on script alone. We propose SCR as a core metric for script-agnostic evaluation, challenging current multilingual assessment paradigms and providing a framework for equitable AI.
- Abstract(参考訳): 現在のビジョン・ランゲージ・モデル(VLM)は多言語能力で祝われているが、一つの言語が単一の記述システムに対応するという欠点のある仮定の下で機能している。
これは、Punjabi、セルビア語、ヒンディー・ウルドゥー語、クルド語など、何十億ものマルチスクリプト言語のユーザを見落としている。
我々は,PuMVR(Punjabi Multimodal Visual Reasoning)という,Punjabiの3つのアクティブスクリプト(Gurmukhi, Shahmukhi, Roman)にまたがる375の文化的基盤イメージ推論タスクを通じて,スクリプト依存バイアスを定量化する最初のベンチマークを紹介した。
モデルはひとつのスクリプトで視覚パズルを頻繁に解き、同じタスクを別のスクリプトで失敗させ、精度デルタは16%、スクリプト一貫性レート(SCR)は24.8%と低い。
重要なことに、視覚的な入力は絶対的なパフォーマンスを高めるが、このギャップを埋めることはせず、相対的なバイアスは持続する。
解析の結果, 推論パターンはクロススクリプトの転送可能性に制限があり, スクリプトのみに基づいてChain-of-Thought経路が分岐することがわかった。
我々は、スクリプトに依存しない評価のための中核となる指標としてSCRを提案し、現在の多言語評価パラダイムに挑戦し、公平なAIのためのフレームワークを提供する。
関連論文リスト
- Not Truly Multilingual: Script Consistency as a Missing Dimension in VLM Evaluation [0.27998963147546146]
Punjabiの3つのアクティブスクリプト間で1,000の厳格な並列画像テキストインスタンスのベンチマークであるPuMVRを紹介した。
モデルは、同じタスクを別のスクリプトで失敗しながら、あるスクリプトで視覚的なタスクを頻繁に解決し、精度の差は16%に達する。
クロススクリプトのインテキスト転送は非常に脆弱で、スクリプトロックされた知識表現が露出する。
論文 参考訳(メタデータ) (2026-06-15T18:25:23Z) - MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios [72.8160644291677]
我々は,多言語デジタルおよび写真文書解析のための最初のベンチマークであるMultilingual Document Parsing Benchmarkを紹介する。
MDPBenchは17言語にまたがる3,400のドキュメントイメージ、多様なスクリプト、さまざまな写真条件で構成されている。
論文 参考訳(メタデータ) (2026-03-30T07:47:46Z) - GanitBench: A bi-lingual benchmark for evaluating mathematical reasoning in Vision Language Models [0.0]
GanitBenchは1527の視覚のみの質問からなるベンチマークである。
ゼロショットチェイン・オブ・ソート(CoT)と2ショットCoT設定の2つのクローズドソースモデルの評価を行った。
GPT-4o miniはベンチマークでより支配的なモデルであり、平均精度は38.15%である。
論文 参考訳(メタデータ) (2025-07-31T18:24:05Z) - TransliCo: A Contrastive Learning Framework to Address the Script Barrier in Multilingual Pretrained Language Models [50.40191599304911]
本稿では,mPLM を微調整する TransliCo を提案する。
Furinaは様々なゼロショット・クロスリンガル・トランスファータスクにおいてオリジナルのGlot500-mより優れていることを示す。
論文 参考訳(メタデータ) (2024-01-12T15:12:48Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Curriculum Script Distillation for Multilingual Visual Question
Answering [10.721189858694396]
下流タスクの学習済みモデルを微調整するために、ソースとターゲット言語翻訳に基づくカリキュラムを導入する。
同一のスクリプトを共有するターゲット言語は、他の言語よりもパフォーマンスが(6%)良いことを示す。
論文 参考訳(メタデータ) (2023-01-17T23:55:50Z) - Does Transliteration Help Multilingual Language Modeling? [0.0]
多言語言語モデルに対する音訳の効果を実証的に測定する。
私たちは、世界で最もスクリプトの多様性が高いIndic言語にフォーカスしています。
比較的高いソースコード言語に悪影響を及ぼすことなく、低リソース言語にトランスリテラゼーションが有効であることに気付きました。
論文 参考訳(メタデータ) (2022-01-29T05:48:42Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。