Fugu-MT 論文翻訳(概要): SalArt-VQA: Diagnosing Whether VLMs Understand Salient Artifacts in Generated Images

論文の概要: SalArt-VQA: Diagnosing Whether VLMs Understand Salient Artifacts in Generated Images

arxiv url: http://arxiv.org/abs/2606.12671v1
Date: Wed, 10 Jun 2026 20:55:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.457574
Title: SalArt-VQA: Diagnosing Whether VLMs Understand Salient Artifacts in Generated Images
Title（参考訳）: SalArt-VQA:VLMが生成した画像の忠実なアーチファクトを理解するかどうかを診断する
Authors: Xiaoxiao Sun, Ruotian Zhang, Junzhe Huang, James Burgess, Serena Yeung-Levy,
Abstract要約: SalArt-VQAは、AI生成画像の詳細なSALient ARTifact理解のための診断ベンチマークである。本研究では,SalArt-VQAが画像レベルの検出精度を隠蔽する欠陥を明らかにする。
参考スコア（独自算出の注目度）: 14.719106419445412
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) are increasingly used to detect whether AI-generated images contain visible artifacts, yet their ability to analyze such artifacts remains poorly understood. A correct image-level decision can still hide important failures: a model may correctly flag an artifact while relying on the wrong visual cue, selecting the wrong region, or describing a defect that the image does not support. To evaluate these behaviors directly, we introduce SalArt-VQA, a diagnostic benchmark for fine-grained SALient ARTifact understanding in AI-generated images. SalArt-VQA contains 950 images and 3,681 human-authored multiple-choice questions spanning artifact images, matched real reference images, and paired generated reference images. Four aligned question types evaluate presence detection, semantic localization, spatial grounding, and evidence-grounded defect identification, while the reference splits test calibration and abstention when the annotated defect is absent. Across 20 VLMs, SalArt-VQA reveals failures that image-level detection accuracy hides: the strongest model reaches 99.37% detection recall on artifact images but answers all four artifact-side questions correctly on only 53.26% of images. Comparing artifact images with artifact-free references reveals a sensitivity-calibration tradeoff: sensitive models often make unsupported artifact claims, while conservative models avoid false alarms largely by missing real artifacts. These results show that high artifact detection accuracy alone does not imply grounded artifact understanding. SalArt-VQA exposes these hidden failure modes and provides a fine-grained evaluation of whether VLM artifact claims are supported by local visual evidence.
Abstract（参考訳）: ヴィジュアル言語モデル(VLM)は、AI生成画像が可視的アーティファクトを含むかどうかを検出するために使われることが多いが、そのようなアーティファクトを分析する能力はいまだによく分かっていない。モデルは間違ったビジュアルキューを頼りにしたり、間違った領域を選択したり、イメージがサポートしていない欠陥を記述したりしながら、アーティファクトを正しくフラグ付けすることができる。これらの挙動を直接評価するために,AI生成画像における微細なSALient ARTifact理解のための診断ベンチマークであるSalArt-VQAを紹介する。 SalArt-VQAには950のイメージと3,681の人間による複数の質問が含まれている。 4つのアライメントされた質問タイプは,アライメント検出,セマンティックローカライゼーション,空間的接地,エビデンスに基づく欠陥識別を評価し,アノテートされた欠陥が欠如している場合には,テスト校正と棄却を分割する。最強のモデルは、アーティファクトイメージの99.37%のリコールに達するが、53.26%のイメージで4つのアーティファクトサイドの質問に正しく答える。センシティブなモデルは、しばしば不必要なアーティファクトのクレームを生じるが、保守的なモデルは、主に実際のアーティファクトの欠如によって偽のアラームを避ける。これらの結果から, 人工物検出精度が高いだけでは, 人工物理解の根拠にはならないことが明らかとなった。 SalArt-VQAはこれらの隠れ障害モードを公開し、VLMアーティファクトクレームが局所的な視覚的証拠によってサポートされているかどうかを詳細に評価する。

関連論文リスト

GenShield: Unified Detection and Artifact Correction for AI-Generated Images [65.11434977803509]
GenShieldは、診断から修復までのクローズドループでAIGI検出とアーティファクト修正を実行するフレームワークである。大規模なアーティファクト-restored'ペアを備えた高品質データセットは、統一された評価パイプラインと共に構築される。
論文参考訳（メタデータ） (2026-05-15T16:06:20Z)
IPAD-CLIP: Teaching CLIP to Detect Image Local Perceptual Artifacts [43.42573468235177]
我々は、このギャップに対処するために、画像知覚アーチファクト検出(IPAD)タスクを形式化する。 IPADの主な課題は、これらのアーティファクトの局所的で微妙でセマンティックに弱い性質にある。本稿では,CLIP上に構築された新しいフレームワークであるIPAD-CLIPを紹介する。
論文参考訳（メタデータ） (2026-05-09T04:04:41Z)
Unveiling Perceptual Artifacts: A Fine-Grained Benchmark for Interpretable AI-Generated Image Detection [95.08316274158165]
X-AIGDは、低レベルの歪み、高レベルの意味論、認知レベルの反事実など、知覚的アーティファクトのピクセルレベルの分類されたアノテーションを提供する。既存のAIGI検出器は、最も基本的な歪みレベルであっても、知覚的アーティファクトに依存しない。モデル注意をアーティファクト領域と明確に整合させることは、検出器の解釈可能性と一般化を高めることができる。
論文参考訳（メタデータ） (2026-01-27T10:09:17Z)
Prominence-Aware Artifact Detection and Dataset for Image Super-Resolution [0.7297638898415074]
我々は、人工物は、一様二元的欠陥として扱われるのではなく、人間の観察者に対する卓越性によって特徴づけられるべきであると論じる。そこで本研究では,11の現代の画像-SR手法から1302のアーティファクトを抽出した新しいデータセットを提案する。我々は,空間的プロミネンス・ヒートマップを生成する軽量な回帰器を訓練し,優れたアーティファクトを検出するために既存の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2025-10-19T08:28:53Z)
Improving Artifact Robustness for CT Deep Learning Models Without Labeled Artifact Images via Domain Adaptation [2.7001982817730616]
本研究では,新しいアーティファクトに拘わらず,分類性能を維持するための訓練モデルとして,ドメイン適応を評価した。シングラム空間における検出ゲイン誤差から得られたリングアーティファクトをシミュレートし,OrganAMNIST腹部CTデータセットに対するベースラインおよび拡張に基づくアプローチに対して,ドメイン敵ニューラルネットワーク(DANN)を評価する。その結果, クリーンな画像のみをトレーニングしたベースラインモデルは, リングアーティファクトを持つ画像に一般化できず, 従来の歪み型による拡張は, 目に見えないアーティファクトドメインに改善を与えないことを示した。
論文参考訳（メタデータ） (2025-10-08T02:27:09Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文参考訳（メタデータ） (2023-10-09T10:22:08Z)
Learning MRI Artifact Removal With Unpaired Data [74.48301038665929]
振り返りアーティファクト補正(RAC)は、画像の質を向上し、画像のユーザビリティを向上させる。最近のRACの機械学習駆動技術は、主に教師付き学習に基づいている。ここでは、不要な画像アーティファクトを、未ペアデータで学習したRACニューラルネットワークを介して、画像から切り離し、取り除くことができることを示す。
論文参考訳（メタデータ） (2021-10-09T16:09:27Z)
Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。 DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文参考訳（メタデータ） (2021-08-18T02:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。