論文の概要: T-IMPACT: A Severity-Aware Benchmark for Contextual Image-Text Manipulation
- arxiv url: http://arxiv.org/abs/2606.22339v1
- Date: Sun, 21 Jun 2026 05:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:53:58.33972
- Title: T-IMPACT: A Severity-Aware Benchmark for Contextual Image-Text Manipulation
- Title(参考訳): T-IMPACT: 文脈画像テキスト操作のための重大度対応ベンチマーク
- Authors: Gagandeep Singh, Aaditya Yadav, Priyanka Singh,
- Abstract要約: 我々は、ニューススタイルの画像テキストペアを操作するための、第1リリースの重大度対応ベンチマークであるT-contextを紹介する。
T-には、プリズム、画像のみ、テキストのみ、関節操作にまたがる98,786のサンプルが含まれている。
パイプラインはセマンティックアンカーを抽出し、空間的に接地し、ローカライズされた画像編集と制約付きキャプション書き換えを行う。
- 参考スコア(独自算出の注目度): 9.049034101566642
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in vision-language models and generative editing systems have made it increasingly easy to produce persuasive multimodal misinformation by altering images, text, or both jointly. However, existing datasets focus mainly on authenticity, out-of-context mismatch, or manipulation type, and rarely capture how strongly an edit changes the likely interpretation of a post. We introduce T-IMPACT, a first-release severity-aware benchmark for manipulated news-style image-text pairs. T-IMPACT contains 98,786 examples spanning pristine, image-only, text-only, and joint manipulations, with a calibrated continuous severity signal, coarse low/medium/high labels, and supporting grounding metadata. Starting from a news image-text pair, the pipeline extracts semantic anchors, grounds them spatially, performs localized image edits and constrained caption rewrites, and calibrates contextual-impact scores using limited human ratings. In this release, the calibrated continuous score is the primary severity target, while the low/medium/high bands should be interpreted as coarse operating buckets rather than balanced classes. Experiments show that current models recover some authenticity signal, but severity prediction remains substantially harder and only weakly aligned with human judgment. T-IMPACT provides an initial benchmark for studying multimodal manipulation beyond binary real/fake classification toward graded contextual impact.
- Abstract(参考訳): 近年の視覚言語モデルと生成編集システムの進歩により、画像、テキスト、あるいは両方を共同で変更することで、説得力のあるマルチモーダルの誤情報を生成することがますます容易になっている。
しかし、既存のデータセットは主に信頼度、アウトオブコンテキストのミスマッチ、操作タイプに重点を置いており、編集がポストの潜在的な解釈をどれほど強く変更するかをキャプチャすることは滅多にない。
我々は、ニューススタイルの画像テキストペアを操作するための、第1リリースのSeverity-awareベンチマークであるT-IMPACTを紹介する。
T-IMPACTは、プリズム、イメージオンリー、テキストオンリー、関節操作にまたがる98,786のサンプルを含み、校正された連続重度信号、粗いロー/メジウム/ハイラベル、グラウンドリングメタデータをサポートする。
ニュース画像とテキストのペアから、パイプラインはセマンティックアンカーを抽出し、空間的に接地し、局所的な画像編集と制約付きキャプションの書き直しを行い、人間格付けによる文脈的影響スコアを校正する。
このリリースでは、校正された連続スコアが主要な重大目標であり、低/中/高帯域はバランスの取れたクラスではなく粗い操作バケットとして解釈されるべきである。
実験では、現在のモデルではいくつかの真正性信号が復元されているが、重大度予測は極めて困難であり、人間の判断と弱く一致している。
T-IMPACTは、段階的文脈影響に対するバイナリ実/偽分類以外のマルチモーダル操作を研究するための初期ベンチマークを提供する。
関連論文リスト
- TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - When Text and Images Don't Mix: Bias-Correcting Language-Image Similarity Scores for Anomaly Detection [35.09035417676343]
テキスト入力の埋め込みは、モデルの対照的な訓練目標とは対照的に、画像埋め込みから遠ざかって、予期せず密集していることを示す。
本稿では,この類似性バイアスを補助的,外部的なテキスト入力を用いて直接考慮するBLISSという手法を提案する。
論文 参考訳(メタデータ) (2024-07-24T08:20:02Z) - Is it an i or an l: Test-time Adaptation of Text Line Recognition Models [9.149602257966917]
テスト期間中にテキスト行認識モデルを適用する問題について紹介する。
本稿では,光学モデルの更新に言語モデルからのフィードバックを利用する反復的自己学習手法を提案する。
実験の結果,提案手法は文字誤り率を最大8%向上させることができた。
論文 参考訳(メタデータ) (2023-08-29T05:44:00Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [102.88033622546251]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - NewsCLIPpings: Automatic Generation of Out-of-Context Multimodal Media [93.51739200834837]
画像とテキストの両方を操作できないが一致しないデータセットを提案する。
本稿では,字幕に適した画像の自動検索手法をいくつか紹介する。
当社の大規模自動生成NewsCLIPpingsデータセットは、両方のモダリティを共同分析するモデルを必要とします。
論文 参考訳(メタデータ) (2021-04-13T01:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。