Fugu-MT 論文翻訳(概要): Vision-Encoder Behavioral Fingerprints of Image-to-Image Generative Models: A Training-Paradigm-Driven Taxonomy of Six Commercial APIs

論文の概要: Vision-Encoder Behavioral Fingerprints of Image-to-Image Generative Models: A Training-Paradigm-Driven Taxonomy of Six Commercial APIs

arxiv url: http://arxiv.org/abs/2606.14787v1
Date: Wed, 10 Jun 2026 17:38:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:32.153602
Title: Vision-Encoder Behavioral Fingerprints of Image-to-Image Generative Models: A Training-Paradigm-Driven Taxonomy of Six Commercial APIs
Title（参考訳）: イメージ・ツー・イメージ生成モデルの視覚エンコーダ行動指紋:6つの商用APIの訓練・パラダイム駆動型分類法
Authors: Hunter Hill,
Abstract要約: 本稿では,コンテンツ適応型サブJND摂動パイプラインにおいて,画像から画像までの6つのAIシステムについて検討する。 COCOの写真、CelebA本部の肖像画、AI生成入力にまたがる3,588件のコーパスの中で、システムは2次元平面上の2つの画像不変の行動バンドに分割する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study six production image-to-image AI systems (gpt-image-1, Gemini 2.5 Flash Image, Flux Kontext, SDXL img2img, SD3 img2img, and Qwen Image Edit) under a content-adaptive sub-JND adversarial perturbation pipeline, scoring all outputs by frozen DINOv2 ViT-B/14 token distances against clean references. Across a 3,588-call corpus spanning COCO photographs, CelebA-HQ portraits, and AI-generated inputs, the six systems partition into two image-invariant behavioral bands on a 2D (patch_mean, ssim_clean) plane: edit-trained models (Flux Kontext, Qwen Edit, Gemini) cluster in a tight band, while T2I-base models adapted at sampling time (SDXL, SD3, gpt-image-1) cluster in a drift band.
Abstract（参考訳）: 我々は,DINOv2 ViT-B/14トークン距離をクリーン参照に対して凍結したDINOv2 ViT-B/14トークン距離を用いて,コンテンツ適応型サブJND摂動パイプラインを用いて,画像から画像までの6つの生成AIシステム(gpt-image-1,Gemini 2.5 Flash Image, Flux Kontext, SDXL img2img, SD3 img2img, Qwen Image Edit)について検討した。 COCO写真、CelebA-HQポートレート、AI生成入力にまたがる3,588コールコーパスの6つのシステムは、2D (patch_mean, ssim_clean)平面上の2つの画像不変の動作バンドに分割される: タイトバンド内の編集訓練されたモデル(Flux Kontext, Qwen Edit, Gemini) クラスタ、サンプリング時間(SDXL, SD3, gpt-image-1)クラスタ内のサンプリング時に適応されたT2Iベースモデル。

関連論文リスト

Imagine Before You Draw: Visual Prompt Engineering for Image Generation [67.81347924426714]
内部フレームワークにシームレスに統合可能なVisual Prompt Engineering (VPE)を提案する。我々は,クラス条件生成,テキスト・ツー・イメージ生成,画像編集にまたがってVPEを検証する。その結果, VPEはコンバージェンスを加速し, 天井の質を高め, 内部統合により, 編集保存性を大幅に向上することがわかった。
論文参考訳（メタデータ） (2026-06-03T05:01:36Z)
Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials [34.77694214755808]
MHSA(Multi-Head Self-Attention)の代替品であるVCA(Visual-Contrast Attention)を導入する。 VCAは、O(N N C) から O(N n C) への理論複雑性を n N で減少させながら、識別の明示的な概念を注入する。モジュールはDeiT-Tinyのバックボーンに0.3M以下のパラメータを追加し、追加のFLOPを必要とせず、完全にアーキテクチャに依存しない。
論文参考訳（メタデータ） (2025-11-02T07:04:12Z)
Representation Entanglement for Generation: Training Diffusion Transformers Is Much Easier Than You Think [63.25744258438214]
REPAとその変種は、事前訓練されたモデルから外部の視覚表現を取り入れることで、拡散モデルのトレーニング課題を効果的に軽減する。偏見推論過程全体において欠落している外部アライメントは、識別的表現の可能性を完全に活用するに足らないと我々は主張する。本稿では,事前学習した基礎モデルから,低レベル画像ラテントを1つの高レベルクラストークンで絡み合わせるRepresentation Entanglement for Generation (REG)を提案する。
論文参考訳（メタデータ） (2025-07-02T08:29:18Z)
Exploring the Untouched Sweeps for Conflict-Aware 3D Segmentation Pretraining [41.145598142457686]
LiDARカメラによる3D画像の事前学習は、3D知覚タスクと関連する応用に有意な可能性を示唆している。未探索フレームからLiDAR-画像ペアを精巧に選択するための,ビジョン・ファウンデーション・モデル駆動型サンプル探索モジュールを提案する。我々の手法は、既存の最先端の事前訓練フレームワークを3つの主要な公道走行データセットで一貫して上回っている。
論文参考訳（メタデータ） (2024-07-10T08:46:29Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
SSG2: A new modelling paradigm for semantic segmentation [0.0]
セグメンテーションにおける最先端モデルは、単一の静的イメージで動作し、対応するセグメンテーションマスクを生成する。セマンティック・チェンジ検出の研究から着想を得て,各静的な入力画像に対して生成した可観測物のシーケンスを活用する手法を提案する。この「時間的」次元を追加することで、シーケンス内の連続した観測間の強い信号相関を利用してエラー率を減少させる。オーストラリア・ダーウィンのUrbanMonitorは5つのスペクトルバンドと0.2mの空間解像度を持つ正像タイルを特徴とし、ISPRS Potsdamは複数のスペクトルバンドと5cmの地中サンプリングを含む真の正像画像を含む。
論文参考訳（メタデータ） (2023-10-12T19:08:03Z)
Centroid-centered Modeling for Efficient Vision Transformer Pre-training [44.24223088955106]
Masked Image Modeling (MIM)は、視覚変換器(ViT)を用いた新しい自己教師型ビジョン事前学習パラダイムである。提案するCentroid-based approach, CCViT は k-means clustering を利用して画像モデリングのためのCentroid を得る。提案手法は, 外部監督や蒸留訓練を伴わずに, 最近のベースラインと競合する結果が得られる。
論文参考訳（メタデータ） (2023-03-08T15:34:57Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。