Fugu-MT 論文翻訳(概要): SSAFE: Simple and Strong AI-Generated Image Detection via Frozen Vision Encoders

論文の概要: SSAFE: Simple and Strong AI-Generated Image Detection via Frozen Vision Encoders

arxiv url: http://arxiv.org/abs/2606.08634v1
Date: Sun, 07 Jun 2026 13:56:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.307766
Title: SSAFE: Simple and Strong AI-Generated Image Detection via Frozen Vision Encoders
Title（参考訳）: SSAFE:凍結ビジョンエンコーダによるシンプルで強力なAI生成画像検出
Authors: Seunghyun Lee, Byoungkwon Kim, Jaehyun Nam, Kyungmin Lee, Jinwoo Shin,
Abstract要約: 現代のマルチモーダル視覚表現において,画像の真正性に関する情報がどのように符号化されているかを検討する。我々は,学習用代表生成器のコンパクトな集合を選択する表現対応型データキュレーション戦略を開発した。実験により、凍結したマルチモーダル表現と慎重にキュレートされたトレーニングデータを組み合わせることで、AI生成画像検出に対するシンプルで効果的なアプローチが示される。
参考スコア（独自算出の注目度）: 61.07733730455141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid advancement of generative models has blurred the boundary between synthetic and real imagery, creating an urgent need for reliable deepfake detection. Yet most existing approaches rely on massive real--fake datasets, which are increasingly difficult to maintain as new generators continue to emerge. In this work, we investigate how much information about image authenticity is already encoded in modern multimodal vision representations. We find that frozen multimodal encoders naturally separate real and synthetic images in their embedding space, enabling a simple linear classifier to achieve strong performance without task-specific fine-tuning. Motivated by this observation, we develop a representation-aware data curation strategy that selects a compact set of representative generators for training. The resulting training set contains only 10K images, compared to 288K in AIGIBench and 4M in OpenFake, while improving robustness to unseen generators and distribution shifts. We additionally introduce RealWorldBench, a benchmark consisting of modern camera photographs, contemporary stock images, and outputs from recent commercial generators. Experiments across multiple benchmarks show that combining frozen multimodal representations with carefully curated training data provides a simple and effective approach to AI-generated image detection.
Abstract（参考訳）: 生成モデルの急速な進歩は、合成画像と実際の画像の境界を曖昧にし、信頼性の高いディープフェイク検出を緊急に必要としてきた。しかし、既存のアプローチのほとんどは大規模なリアルタイムデータセットに依存しており、新しいジェネレータが出現し続けるにつれて、メンテナンスがますます困難になっている。本研究では,現代のマルチモーダル視覚表現において,画像の真正性に関する情報がどのように符号化されているかを検討する。凍結したマルチモーダルエンコーダは、実画像と合成画像をその埋め込み空間で自然に分離し、単純な線形分類器がタスク固有の微調整なしで高い性能を達成できることを示した。そこで本研究では,学習用汎用ジェネレータのコンパクトなセットを選択する表現認識型データキュレーション戦略を開発した。結果として得られたトレーニングセットは、AIGIBenchの288KとOpenFakeの4Mと比較して、わずか10Kイメージしか含まれていない。また、現代のカメラ写真、現代のストック画像、および最近の商用ジェネレータからの出力からなるベンチマークであるRealWorldBenchを紹介する。複数のベンチマークでの実験では、凍結したマルチモーダル表現と慎重にキュレートされたトレーニングデータを組み合わせることで、AI生成の画像検出に対するシンプルで効果的なアプローチが示される。

関連論文リスト

RealHD: A High-Quality Dataset for Robust Detection of State-of-the-Art AI-Generated Images [14.691738115737962]
実画像とAI生成画像の両方を含む複数のカテゴリにわたる730,000以上の画像からなる高品質で大規模なデータセットを提案する。生成された画像は最先端の方法で合成され、テキスト・ツー・イメージ・ジェネレーション(念入りに設計された1万以上のプロンプトによって誘導される)、画像のインペインティング、画像の精細化、顔のスワップなどが含まれる。我々のデータセットは、検出方法を評価するための強力なベンチマークとして機能するだけでなく、AI生成画像検出技術の堅牢性向上にも寄与する。
論文参考訳（メタデータ） (2026-02-11T05:38:40Z)
Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective [80.10217707456046]
カメラメタデータを利用したAI生成画像検出のための自己教師型アプローチを提案する。分類型EXIFタグを分類することにより,撮影画像のみに特徴抽出器を訓練する。我々の検出器は、電界中のサンプルに対して強力な一般化と、一般的な良性イメージの摂動に対する堅牢性を提供する。
論文参考訳（メタデータ） (2025-12-05T11:53:18Z)
CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文参考訳（メタデータ） (2025-03-24T01:59:29Z)
HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-01-10T00:20:29Z)
Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。 RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文参考訳（メタデータ） (2024-05-30T14:49:54Z)
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-02-29T12:18:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。