Fugu-MT 論文翻訳(概要): The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

論文の概要: The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer

arxiv url: http://arxiv.org/abs/2606.17609v1
Date: Tue, 16 Jun 2026 07:14:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.325137
Title: The Benchmark Illusion: Pruned LLMs Can Pass Multiple Choice but Fail to Answer
Title（参考訳）: ベンチマークのイラシオン:実行済みのLLMは複数の選択をパスできるが、回答に失敗する
Authors: Rui Wen, Lu Sun, Jiayang Liu, Zesheng Xu, Tianshuo Cong, Zheng Li,
Abstract要約: 大規模な言語モデルはメモリ使用量と推論コストを削減しますが、標準ベンチマークが見逃す障害も発生します。正しい答えが消去されるのか、それとも、上位の出力として答えが生成しにくくなるのか? ベンチマークの錯覚を見いだす。高いスパーシティプルーニング(特にワンダ)の下では、モデルは、複数のスコアで正しい答えを選択しながら、欲張りのオープンジェネレーションで失敗することが多い。
参考スコア（独自算出の注目度）: 14.274182889933272
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Compressing large language models reduces memory use and inference cost, but it can also create failures that standard benchmarks miss. A pruned model may still perform well on multiple-choice evaluations, yet fail to answer the same question in open generation. We ask what pruning changes: does it erase the correct answer, or does it make the answer harder to produce as the top output? We study this question with multilingual question answering, tracking the same questions before and after pruning. We find a benchmark illusion. Under high-sparsity pruning, especially Wanda, models often fail in greedy open generation while still selecting the correct answer under multiple-choice scoring. In these recognition-only errors, the answer is usually not gone, but demoted: it often reappears with beam search, sampling, or one in-context example. Overall, multiple-choice benchmarks can overstate the usability of compressed LLMs, creating an evaluation blind spot. Compressed models should be tested on what they can produce, not only on what they can recognize.
Abstract（参考訳）: 大きな言語モデルを圧縮することで、メモリ使用量と推論コストが削減されるが、標準ベンチマークが見逃す障害も発生させる。刈り取られたモデルは、多重選択評価において依然としてよく機能するが、オープン世代では同じ質問に答えることができない。正しい答えが消去されるのか、それとも、上位の出力として答えが生成しにくくなるのか? 我々は,この質問を複数言語による質問応答を用いて調査し,その前後で同じ質問を追尾する。ベンチマークの錯覚を見つけます。高スパーシティプルーニング(特にワンダ)の下では、モデルは、複数のスコアで正しい答えを選択しながら、ひどいオープンジェネレーションで失敗することが多い。これらの認識のみのエラーでは、解答は通常消えることはないが、復調される:ビームサーチ、サンプリング、あるいは1つのインコンテキストの例によって、しばしば再現れる。全体として、複数選択ベンチマークは圧縮LDMのユーザビリティを誇張し、評価盲点を生み出すことができる。圧縮モデルは、認識できるものだけでなく、生成できるものでもテストされるべきです。

関連論文リスト

Benchmarking Deflection and Hallucination in Large Vision-Language Models [25.176271096443482]
既存のベンチマークでは、視覚的証拠とテキスト的証拠の衝突を見落としている。多様なマルチモーダル検索設定にまたがる2,775個のサンプルのベンチマークであるVLM-DeflectionBenchを紹介する。私たちの結果は、モデルが知っていることだけでなく、そうでないときにどのように振る舞うかを評価する必要性を強調します。
論文参考訳（メタデータ） (2026-04-13T20:22:22Z)
Self-Questioning Language Models [58.73276539661649]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文参考訳（メタデータ） (2025-08-05T17:51:33Z)
Answer Matching Outperforms Multiple Choice for Language Model Evaluation [35.90520208701438]
人気のあるベンチマークから選択した複数の質問が、その質問を見ることなく答えられることがよくあります。応答マッチングと呼ばれる手法による生成的評価について検討する。
論文参考訳（メタデータ） (2025-07-03T17:59:02Z)
MINERVA: Evaluating Complex Video Reasoning [72.12644008002566]
我々は、最新のマルチモーダルモデルのためのMINERVAと呼ばれる新しいビデオ推論データセットを提供する。我々のデータセットはマルチモーダルであり、ビデオ領域と長さの点で多様であり、複雑なマルチステップの質問で構成されている。我々は,様々なモデルにまたがる共通障害モードを特定するために,きめ細かいエラー解析を行い,推論エラーの分類を作成する。
論文参考訳（メタデータ） (2025-05-01T17:41:49Z)
Lost in Time: A New Temporal Benchmark for VideoLLMs [48.71203934876828]
現在最も使われているビデオ言語ベンチマークは、時間的推論を必要とせずに解決可能であることを示す。提案するTVBenchは,オープンソースのマルチ選択質問応答ベンチマークである。
論文参考訳（メタデータ） (2024-10-10T09:28:36Z)
Answer, Assemble, Ace: Understanding How LMs Answer Multiple Choice Questions [103.20281438405111]
MCQA(Multiple-choice Question answering)は、高性能トランスフォーマー言語モデルのキーコンピテンスである。我々は,正解を予測するための関連情報をエンコードするキー隠れ状態のローカライズに語彙予測とアクティベーションパッチ手法を用いる。後続の層は語彙空間における予測応答記号の確率を増大させ、この確率の増加は、特異な役割を持つ注目ヘッドのスパースセットと関連していることを示す。
論文参考訳（メタデータ） (2024-07-21T00:10:23Z)
SelfCheck: Using LLMs to Zero-Shot Check Their Own Step-by-Step Reasoning [55.76083560152823]
SelfCheckは、ステップバイステップの推論でエラーを認識する汎用的なゼロショット検証スキーマである。我々は,3つのデータセット(GSM8K,MathQA,MATH)上でSelfCheckをテストし,エラーの認識に成功し,最終的な回答精度が向上することを確認した。
論文参考訳（メタデータ） (2023-08-01T10:31:36Z)
A Semantic-based Method for Unsupervised Commonsense Question Answering [40.18557352036813]
ラベル付きタスクデータに依存しないため、教師なしのコモンセンス質問応答は魅力的である。教師なしコモンセンス質問応答のためのSemantic-based Question Answering法(SEQA)を提案する。
論文参考訳（メタデータ） (2021-05-31T08:21:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。