Fugu-MT 論文翻訳(概要): REKEY: Metadata-Grounded Visual-Key Regeneration for Contamination-Resilient VQA Evaluation

論文の概要: REKEY: Metadata-Grounded Visual-Key Regeneration for Contamination-Resilient VQA Evaluation

arxiv url: http://arxiv.org/abs/2606.20736v1
Date: Wed, 17 Jun 2026 15:35:36 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-23 11:28:07.524297
Title: REKEY: Metadata-Grounded Visual-Key Regeneration for Contamination-Resilient VQA Evaluation
Title（参考訳）: REKEY:汚染耐性VQA評価のためのメタデータを取り巻くビジュアルキーの再生
Authors: Tengjie Lin, Yutao Sun, Jingwei Ni, Shuhan Ge, Hao-Xuan Ma, Yanting Miao, Wangyue Lu, Mingshuai Chen, Tiancheng Zhao, Jianwei Yin,
Abstract要約: 本稿では,実画像中の応答を含む局所的詳細情報,すなわち視覚的キーをランダムに生成する,ライブベンチマークプロトコルReKeyを提案する。人間のバリデーションされた編集スロットを使用して、ReKeyは新しい回答、構築済みラベル、制御されたビジュアル検索の難しさを含む新しいインスタンスをサンプリングする。 V*Benchでは、ReKey再生ベンチマークが8つのフロンティアビジョン言語モデルに急激なスコアジャンプを示している。
参考スコア（独自算出の注目度）: 33.788366455763466
License:
Abstract: Static visual question answering (VQA) benchmarks age quickly: Once the items leak into training corpora, scores can reflect memorization rather than genuine visual ability, thus obscuring real progress. Rebuilding high-quality benchmarks such as V*Bench requires substantial human annotation, yet each static release can quickly become another leaked artifact. We propose ReKey, a live benchmark protocol that randomly regenerates the answer-bearing local detail, or visual key, in real images at evaluation time. Using human-validated edit slots, ReKey samples fresh instances with new answers, construction-grounded labels, and controlled visual-search difficulty. On V*Bench, the ReKey regenerated benchmark reveals a sharp score jump across eight frontier vision-language models (VLMs): The original items score 9.5--18.8 percentage points higher than the regenerated variants. By making the visual key renewable, ReKey keeps evaluation fresh as models and training data evolve.
Abstract（参考訳）: 静的視覚質問応答(VQA)ベンチマークは、すぐに年齢が上がる。トレーニングコーパスにアイテムが漏れると、スコアは真の視覚能力よりも記憶を反映し、真の進歩を妨げます。 V*Benchのような高品質なベンチマークを再構築するには、かなりの人的アノテーションが必要であるが、静的リリースはすぐに別のリークアーティファクトになる可能性がある。本稿では,実画像中の応答を含む局所的詳細情報,すなわち視覚的キーをランダムに生成する,ライブベンチマークプロトコルReKeyを提案する。人間のバリデーションされた編集スロットを使用して、ReKeyは新しい回答、構築済みラベル、制御されたビジュアル検索の難しさを含む新しいインスタンスをサンプリングする。 V*Benchでは、ReKey再生ベンチマークが8つのフロンティア視覚言語モデル(VLM)の急激なスコアジャンプを示している。ビジュアルキーを再生可能にすることで、ReKeyはモデルとトレーニングデータが進化するにつれて、評価を新たに維持する。

関連論文リスト

ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文参考訳（メタデータ） (2026-04-27T10:45:51Z)
AVA-Bench: Atomic Visual Ability Benchmark for Vision Foundation Models [23.027687300440277]
AVA-Benchは、14のAtomic Visual Abilities(AVA)を明示的にアンタングルする最初のベンチマークである。 AVAを分離し、それぞれのトレーニングとテスト分布を一致させることで、VA-Bench は VFM が引き寄せる位置を正確に特定する。
論文参考訳（メタデータ） (2025-06-10T05:43:34Z)
Augmented Box Replay: Overcoming Foreground Shift for Incremental Object Detection [26.948748060138264]
漸進的な学習では、過去のタスクから格納されたサンプルを現在のタスクサンプルと共に再生することが、破滅的な忘れに対処する最も効率的なアプローチの1つである。インクリメンタルな分類とは異なり、画像リプレイはインクリメンタルなオブジェクト検出(IOD)にはうまく適用されていない。前景シフトは、以前のタスクのイメージを再生する際にのみ発生し、その背景に現在のタスクの前景オブジェクトが含まれる可能性があるという事実を指す。
論文参考訳（メタデータ） (2023-07-23T20:47:03Z)
Improving Passage Retrieval with Zero-Shot Question Generation [109.11542468380331]
オープンな質問応答における経路検索を改善するための,シンプルで効果的な再ランク付け手法を提案する。再ランカは、学習済み言語モデルを用いて、検索されたパスに条件付けられた入力質問の確率を算出するゼロショット質問生成モデルを用いて、検索されたパスを再スコアする。
論文参考訳（メタデータ） (2022-04-15T14:51:41Z)
Learning Compositional Representation for Few-shot Visual Question Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。 VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文参考訳（メタデータ） (2021-02-21T10:16:24Z)
Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文参考訳（メタデータ） (2020-10-13T00:23:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。