論文の概要: BLUEX v2: Benchmarking LLMs on Open-Ended Questions from Brazilian University Entrance Exams
- arxiv url: http://arxiv.org/abs/2606.22723v1
- Date: Sun, 21 Jun 2026 23:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 05:06:01.831462
- Title: BLUEX v2: Benchmarking LLMs on Open-Ended Questions from Brazilian University Entrance Exams
- Title(参考訳): BLUEX v2: ブラジル大学入学試験におけるオープンエンディング質問のLCMのベンチマーク
- Authors: João Guilherme Alves Santos, Giovana Kerche Bonás, Thiago Laitz, Thales Sales Almeida, Helio Pedrini,
- Abstract要約: ブラジルの2つの主要な大学の第2段階の入学試験から得られたベンチマークであるBLUEX v2を紹介する。
我々のデータセットは、395の質問を919のグレードのサブクエストに展開し、55.7%の質問が関連画像を含んでいる。
その結果、モデルにまたがる4.92ポイントのパフォーマンスが明らかになり、数学的推論と画像理解が最も難しい能力の次元として現れる。
- 参考スコア(独自算出の注目度): 5.232617124162657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) excel in many tasks, their assessment in Portuguese has received less attention, particularly for open-ended, discursive tasks that demand deeper reasoning and generation capabilities. While the original BLUEX benchmark addressed the scarcity of Portuguese evaluation datasets through multiple-choice questions from Brazilian university entrance exams, it did not cover the more challenging second-phase examinations, which require free-form written responses. In this work, we introduce BLUEX v2, a benchmark derived from the second-phase entrance exams of Brazil's two leading universities: UNICAMP (Comvest) and USP (Fuvest), spanning exam years 2022-2025. Our dataset comprises 395 questions unfolding into 919 graded subquestions, with 55.7% of questions containing associated images. Each question is annotated with subject area, official reference answers, LLM-generated rubric criteria, and six cognitive capability tags. We evaluate 21 state-of-the-art LLMs using an LLM-as-a-judge protocol. Results reveal a 4.92-point performance spread across models (4.18-9.10 on a 0-10 scale), with Mathematical Reasoning and Image Understanding emerging as the hardest capability dimensions. The dataset, evaluation code, and model outputs are publicly available at https://anonymous.4open.science/r/BLUEXv2.
- Abstract(参考訳): 大きな言語モデル(LLM)は多くのタスクに優れていますが、ポルトガルでの彼らの評価は、特により深い推論と生成能力を必要とするオープンエンドの非帰的なタスクに対して、あまり注目されていません。
元々のBLUEXベンチマークは、ブラジルの大学入学試験からの複数項目の質問を通じてポルトガルの評価データセットの不足に対処したが、自由形式の回答を必要とする、より困難な第二段階の試験はカバーしなかった。
本研究では,ブラジルの2大大学(UNICAMP (Comvest) とUSP (Fuvest) の2段階の入学試験から得られたベンチマークである BLUEX v2 を紹介する。
我々のデータセットは、395の質問を919のグレードのサブクエストに展開し、55.7%の質問が関連画像を含んでいる。
各質問には、主題領域、公式の参照回答、LCMの生成基準、および6つの認知能力タグが注釈付けされている。
LLM-as-a-judgeプロトコルを用いて21の最先端LCMを評価した。
その結果、モデルにまたがる4.92ポイントのパフォーマンス(0-10スケールで4.18-9.10)が示され、数学的推論と画像理解が最も難しい能力の次元として現れる。
データセット、評価コード、モデル出力はhttps://anonymous.4open.science/r/BLUEXv2で公開されている。
関連論文リスト
- BLUEX Revisited: Enhancing Benchmark Coverage with Automatic Captioning [3.364554138758565]
我々は、2024-2025の試験を含むBLUEXデータセットの更新版を提示し、最先端のモデルを用いて自動的に画像キャプションを生成する。
カプセル化戦略は、テキストのみのモデルへのアクセシビリティを40%以上増加させ、1,422の有用な質問を生み出している。
論文 参考訳(メタデータ) (2025-08-29T01:23:28Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - HellaSwag-Pro: A Large-Scale Bilingual Benchmark for Evaluating the Robustness of LLMs in Commonsense Reasoning [56.221060995324436]
大規模言語モデル(LLM)は、常識推論において顕著な能力を示している。
これらのモデルは、本当に常識的知識を理解しているのか、あるいは単に表現パターンを記憶しているだけなのか?
11,200のケースからなる大規模バイリンガルベンチマークであるHellaSwag-Proを紹介する。
論文 参考訳(メタデータ) (2025-02-17T03:24:02Z) - U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in LLMs [2.2330469342127577]
教材から得られた大学レベルの未発表問題1,100件の新規ベンチマークであるU-MATHを紹介する。
6つの中核領域でバランスが取れており、20%のマルチモーダル問題がある。
U-MATH問題のオープンな性質を考えると、生成した解の正しさを判断するために LLM を用いる。
その結果,LLMはテキストベースのタスクでは最大63%の精度しか得られず,視覚的問題では45%以下であった。
論文 参考訳(メタデータ) (2024-12-04T10:44:50Z) - BLUEX: A benchmark based on Brazilian Leading Universities Entrance
eXams [4.9069311006119865]
ブラジルの2大大学(UNI CAMPとUSP)の入学試験のデータセットであるBLUEXを紹介する。
データセットには、さまざまな主題におけるNLPモデルの性能を評価するための注釈付きメタデータが含まれている。
我々は、最先端のLMを用いた実験を通じて、ポルトガル語の自然言語理解と推論の最先端化の可能性を実証するベンチマークを構築した。
論文 参考訳(メタデータ) (2023-07-11T16:25:09Z) - Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis [103.89753784762445]
大規模言語モデル(LLM)は多言語機械翻訳(MMT)の処理において顕著な可能性を示した。
本稿では, MMT における LLM の利点と課題を体系的に検討する。
また,ChatGPTとGPT-4を含む8つのLLMを徹底的に評価した。
論文 参考訳(メタデータ) (2023-04-10T15:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。