論文の概要: A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2
- arxiv url: http://arxiv.org/abs/2606.19259v1
- Date: Wed, 17 Jun 2026 16:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.273894
- Title: A Multi-Domain Benchmark for Detecting AI-Generated Text-Rich Images from GPT-Image-2
- Title(参考訳): GPT画像からのAI生成テキストリッチ画像検出のためのマルチドメインベンチマーク-2
- Authors: Yijin Wang, Shuyi Wang, Wenhan Zhang, Yuqi Ouyang,
- Abstract要約: OpenAI の GPT Image 2 で生成されたテキストリッチな画像を検出するためのベンチマークを導入する。
ベンチマークには、商業ポスター、インフォグラフィック、学術ポスター、レシート、テーブル、UIスクリーンショットの6つのカテゴリにまたがる8,602のイメージが含まれている。
このベンチマークを用いて、ゼロショット設定で5つの代表的なAI生成画像検出器を評価し、その全体的、カテゴリ的、および後処理の堅牢性を分析する。
- 参考スコア(独自算出の注目度): 5.27107161551086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-rich images often contain privacy-sensitive, transactional, or decision-relevant information. As recent multimodal image generation models become increasingly capable of synthesizing realistic textual content and structured visual designs, detecting AI-generated text-rich images has become an important challenge for digital trust and content authenticity. Existing benchmarks, however, largely focus on object-centric images and provide limited coverage of scenarios where textual semantics and layout organization are central. In this paper, we introduce a multi-domain benchmark for detecting text-rich images generated by OpenAI's GPT Image 2. The benchmark contains 8,602 images across six representative categories: commercial posters, infographics, academic posters, receipts, tables, and UI screenshots. Using this benchmark, we evaluate five representative AI-generated image detectors in a zero-shot setting and analyze their overall, category-wise, and post-processing robustness. Our results show that detector performance is highly domain-dependent: methods that perform well in some categories often fail on others, and even the strongest conventional detector exhibits severe sensitivity to JPEG compression. We further conduct an exploratory evaluation with a multimodal vision-language model, revealing both its promise and its limitations on structured formats. These findings highlight the need for text- and layout-aware detection methods for modern AI-generated images. Our dataset is released at XXX.
- Abstract(参考訳): テキストリッチなイメージは、プライバシに敏感な、トランザクション、あるいは意思決定に関連する情報を含むことが多い。
最近のマルチモーダル画像生成モデルは、現実的なテキストコンテンツと構造化されたビジュアルデザインを合成する能力がますます高まっているため、AI生成されたテキストリッチ画像の検出は、デジタル信頼とコンテンツ認証にとって重要な課題となっている。
しかし、既存のベンチマークは主にオブジェクト中心の画像に焦点を当てており、テキストの意味論とレイアウト組織が中心となるシナリオを限定的にカバーしている。
本稿では,OpenAI の GPT Image 2 で生成されたテキストリッチな画像を検出するためのマルチドメインベンチマークを提案する。
ベンチマークには、商業ポスター、インフォグラフィック、学術ポスター、レシート、テーブル、UIスクリーンショットの6つのカテゴリにまたがる8,602のイメージが含まれている。
このベンチマークを用いて、ゼロショット設定で5つの代表的なAI生成画像検出器を評価し、その全体的、カテゴリ的、および後処理の堅牢性を分析する。
その結果,検出器の性能はドメインに依存していることが明らかとなった。いくつかのカテゴリでよく機能する手法は,他のカテゴリでは失敗することが多く,従来の検出器でもJPEG圧縮に対して強い感度を示す。
さらに,マルチモーダル視覚言語モデルによる探索的評価を行い,その可能性と制約を構造化形式上で明らかにする。
これらの知見は、現代のAI生成画像に対するテキストおよびレイアウト認識検出手法の必要性を浮き彫りにした。
データセットはXXXでリリースされます。
関連論文リスト
- UniAIDet: A Unified and Universal Benchmark for AI-Generated Image Content Detection and Localization [39.51629719911405]
写真画像と芸術画像の両方を含む統一的で総合的なベンチマークであるUniAIDetを紹介する。
UniAIDetは、テキスト・ツー・イメージ、イメージ・ツー・イメージ、画像のインペイント、画像編集、ディープフェイクモデルなど、幅広い生成モデルをカバーする。
論文 参考訳(メタデータ) (2025-10-27T05:37:23Z) - Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。
このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。
複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2025-07-14T16:21:05Z) - TextInVision: Text and Prompt Complexity Driven Visual Text Generation Benchmark [61.412934963260724]
既存の拡散ベースのテキスト・ツー・イメージモデルは、しばしば画像に正確にテキストを埋め込むのに苦労する。
本研究では,画像に視覚テキストを統合する拡散モデルの有効性を評価するために,大規模で,かつ,迅速な複雑性駆動型ベンチマークであるTextInVisionを紹介する。
論文 参考訳(メタデータ) (2025-03-17T21:36:31Z) - D-Judge: How Far Are We? Assessing the Discrepancies Between AI-synthesized and Natural Images through Multimodal Guidance [19.760989919485894]
5000の自然画像と440,000以上のAIGIサンプルからなる大規模マルチモーダルデータセットD-ANIを構築した。
次に、AI生成画像(AIGI)が真に現実的なイメージからどこまで遠いのかという、重要な問題に対処するために、AI-Natural Image Discrepancy評価ベンチマーク(D-Judge)を導入します。
論文 参考訳(メタデータ) (2024-12-23T15:08:08Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。