論文の概要: Sci-Rho: A Multilingual Visually-Grounded Symbolic Benchmark for STEM Problems
- arxiv url: http://arxiv.org/abs/2606.08034v1
- Date: Sat, 06 Jun 2026 07:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.680444
- Title: Sci-Rho: A Multilingual Visually-Grounded Symbolic Benchmark for STEM Problems
- Title(参考訳): Sci-Rho:STEM問題のための多言語ビジュアルグラウンドシンボリックベンチマーク
- Authors: Muhammad Falensi Azmi, Ikhlasul Akmal Hanif, Vallerie Alexandra Putra, Adi Yeltay, Abdullah Mubarak, Fajri Koto,
- Abstract要約: Sci-Rhoは、5つの主題と7つの言語にまたがる視覚的なSTEM問題の動的ベンチマークである。
各テンプレートは実行可能なPythonコードとして実装され、多様なが等価な問題インスタンスを生成する。
我々は17種類の最先端VLMを評価し、最悪のケースの精度と平均精度の間に顕著なギャップがあることを発見した。
- 参考スコア(独自算出の注目度): 9.323629609163435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic benchmarks have emerged as a key approach to assess model robustness under minor modifications to STEM-related questions. However, existing symbolic benchmarks mostly remain limited to mathematical reasoning, lack visual grounding, and are predominantly in English. In this work, we introduce Sci-Rho (Science Rhobustness), a dynamic benchmark for visually-grounded STEM problems spanning five subjects and seven languages, comprising 4,242 problem templates (606 per language) crafted by domain experts, including Olympiad medalists. Each template is implemented as executable Python code that generates diverse but equivalent problem instances by varying numerical values, visual patterns, geometric shapes, color schemes, and function types, resulting in 42,420 instances in total, each paired with reasoning steps and ground-truth solutions. We evaluated 17 state-of-the-art VLMs and discovered a noticeable gap between worst-case accuracy (defined as the proportion of problem templates that a model answers correctly across every generated variation) and average accuracy. We also discovered that smaller models show noticeable performance degradation across languages, whereas proprietary and larger models remain robust. Step-level evaluation reflects this same trend, revealing a significant gap between average F1 and worst-case F1 scores. Finally, our inspection of attention heads of a VLM reveals substantial cross-lingual variation in the relative attention allocated to image tokens compared to text tokens. Our work highlights the importance of evaluation beyond static benchmarks as a metric to measure the quality of VLMs.
- Abstract(参考訳): シンボリックベンチマークは、STEM関連の質問に対する小さな修正の下でモデルロバスト性を評価するための重要なアプローチとして現れている。
しかし、既存の記号的ベンチマークは主に数学的推論に限られており、視覚的根拠が欠如しており、主に英語で使われている。
本研究では,Sci-Rho (Sci-Rhobustness) について紹介する。Sci-Rho (Science Rhobustness) は5つの主題と7つの言語にまたがる視覚的なSTEM問題の動的ベンチマークである。
それぞれのテンプレートは実行可能なPythonコードとして実装され、数値、視覚的パターン、幾何学的形状、カラースキーム、関数タイプによって多様な問題インスタンスを生成する。
我々は17種類の最先端VLMを評価し、最悪の場合の精度(モデルが生成した変動毎に正しく答える問題テンプレートの割合として定義される)と平均精度との間に顕著なギャップがあることを発見した。
また、より小さなモデルは言語間で顕著なパフォーマンス低下を示しますが、プロプライエタリなモデルと大規模モデルは引き続き堅牢です。
ステップレベルの評価は、この傾向を反映しており、平均的なF1スコアと最悪のF1スコアの間に大きなギャップがあることを示している。
最後に,VLMの注目頭部の検査により,画像トークンに割り当てられる相対的注意の経時的変化をテキストトークンと比較して明らかにした。
我々の研究は、VLMの品質を測定するための指標として、静的ベンチマークを超えた評価の重要性を強調している。
関連論文リスト
- Can MLLMs Read Students' Minds? Unpacking Multimodal Error Analysis in Handwritten Math [55.83696908107408]
スクラッチマス(ScratchMath)は,手書き数学のスクラッチワークにおける誤りの説明と分類のための新しいベンチマークである。
本データセットは,中国初等・中等生の1,720個の数学サンプルからなる。
我々は,ScratchMath上での16のMLLMを系統的に評価し,人的専門家に対する顕著な性能差を明らかにした。
論文 参考訳(メタデータ) (2026-03-26T02:57:20Z) - SketchJudge: A Diagnostic Benchmark for Grading Hand-drawn Diagrams with Multimodal Large Language Models [27.624339537278257]
我々は手書きSTEM図のグレーダとしてMLLMを評価するための新しいベンチマークであるSketchJudgeを紹介する。
SketchJudgeは、幾何学、物理学、チャート、フローチャートという4つの領域にまたがる1015人の手書きの学生の反応を包含している。
評価の結果、先進的なMLLMでさえ人間よりもかなり遅れており、象徴的でノイズの多い状況下での現在の視覚言語アライメントの脆弱さを明らかにする上で、ベンチマークの有効性が検証された。
論文 参考訳(メタデータ) (2026-01-11T15:08:05Z) - MathRobust-LV: Evaluation of Large Language Models' Robustness to Linguistic Variations in Mathematical Reasoning [0.0]
大規模言語モデルは数学のベンチマークで優れているが、それらの数学は言語的変動に頑健性をもたらす。
そこで本研究では, インストラクタが評価にまたがってどのように問題を言い換えるかを反映した, テストセットと評価手法であるMathRobust-LVを紹介する。
結果から,言語的変化に対する頑健性は基本的な課題であり,モデルに脆弱性があることが示唆された。
論文 参考訳(メタデータ) (2025-10-07T20:09:29Z) - VLM@school -- Evaluation of AI image understanding on German middle school knowledge [0.0]
本稿では、視覚言語モデル(VLM)の能力を評価するために設計された新しいベンチマークデータセットを提案する。
このデータセットは、数学、歴史、生物学、宗教を含む9つの領域にまたがる実際の中学カリキュラムから導かれる。
我々は,複数の次元にわたる最先端のオープンウェイトVLM13種の評価を行った。
論文 参考訳(メタデータ) (2025-06-13T09:20:41Z) - Evaluating Visual Mathematics in Multimodal LLMs: A Multilingual Benchmark Based on the Kangaroo Tests [2.0176279176431744]
MLLM(Multimodal Large Language Models)は先進的な視覚言語能力を約束するが、視覚的に提示された数学におけるその有効性は未解明のままである。
本稿では,図形,多言語テキスト,記号表記に着目し,数学的問題解決のためのMLLMの開発と評価を行う。
GPT 4o, Pixtral, Qwen VL, Llama 3.2 Vision, Gemini 2.0 Flashなど,英語,フランス語,スペイン語,カタルーニャ語にまたがる多言語カンガルースタイルのベンチマークを評価した。
論文 参考訳(メタデータ) (2025-06-09T04:35:02Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - The Devil is in the Errors: Leveraging Large Language Models for
Fine-grained Machine Translation Evaluation [93.01964988474755]
AutoMQMは,大規模な言語モデルに対して,翻訳におけるエラーの識別と分類を求めるプロンプト技術である。
テキスト内学習と微調整によるラベル付きデータの影響について検討する。
次に, PaLM-2モデルを用いてAutoMQMを評価し, スコアのプロンプトよりも性能が向上することがわかった。
論文 参考訳(メタデータ) (2023-08-14T17:17:21Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。