Fugu-MT 論文翻訳(概要): Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

論文の概要: Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning

arxiv url: http://arxiv.org/abs/2606.24548v1
Date: Tue, 23 Jun 2026 13:15:07 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.964622
Title: Are Text-to-Image Models Inductivist Turkeys? A Counterfactual Benchmark for Causal Reasoning
Title（参考訳）: テキストから画像へのモデルはトルコ人を引き起こすか? 因果推論のための反実的ベンチマーク
Authors: Jiayi Lei, Yuandong Pu, Xingyu Han, Rongpeng Zhu, Jing Xu, Jinyao Wang, Zijian Zhou, Bin Fu, Yuewen Cao, Yihao Liu, Yongsheng Li,
Abstract要約: 実世界の先行を体系的に矛盾させるルールの下で,テキスト・ツー・イメージ・モデルが画像を生成することができるかどうかを検討する。 CF-Worldは、各シナリオを3つのプログレッシブなレベルにまとめる: 通常の世界の知識の下での事実生成、直接的な視覚的指示を伴う明示的な反事実生成、そして変化した規則から因果的推論を必要とする暗黙的な反事実生成である。
参考スコア（独自算出の注目度）: 20.19280030686465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image (T2I) generation models have achieved remarkable progress in producing visually realistic images from natural language prompts. Yet it remains unclear whether their success reflects genuine causal understanding or sophisticated pattern matching over visual-textual correlations. Inspired by Russell's inductivist turkey, we introduce Counterfactual-World (CF-World), a counterfactual benchmark designed to investigate whether text-to-image models can generate images under rules that systematically contradict real-world priors. CF-World organizes each scenario into three progressive levels: factual generation under ordinary world knowledge, explicit counterfactual generation with direct visual instructions, and implicit counterfactual generation requiring causal deduction from altered rules. We evaluate both open-source and closed-source T2I models using a Vision Language Model (VLM)-based evaluator (CF-Eval). Furthermore, we introduce two metrics: Prior Resistance Rate (PRR), which measures a model's ability to overcome entrenched real-world priors, and Reasoning Retention Rate (RRR), which assesses whether models can maintain reasoning-dependent counterfactual generation without explicit visual cues. Experiments show that all models exhibit sharp degradation from factual to counterfactual settings. Further analyses suggest that these failures arise because current T2I models encode world knowledge and visual appearances as tightly coupled patterns. Consequently, their heavy reliance on frequent visual co-occurrences within the training data forces them to default to familiar commonsense priors when tasked with rendering counterfactual worlds.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)生成モデルは、自然言語のプロンプトから視覚的にリアルな画像を生成する際、顕著な進歩を遂げている。しかし、その成功が真の因果的理解や、視覚的・テクスト的相関よりも洗練されたパターンマッチングを反映しているかどうかは不明である。ラッセルの帰納主義的七面鳥に触発され、実世界の先例と体系的に矛盾するルールの下で、テキスト・ツー・イメージ・モデルが画像を生成することができるかどうかを調べるために設計された、対物的世界(CF-World)のベンチマークを導入する。 CF-Worldは、各シナリオを3つのプログレッシブなレベルにまとめる: 通常の世界の知識の下での事実生成、直接的な視覚的指示を伴う明示的な反事実生成、そして変化した規則から因果的推論を必要とする暗黙的な反事実生成である。視覚言語モデル(VLM)に基づく評価器(CF-Eval)を用いて,オープンソースおよびクローズドソースT2Iモデルの評価を行った。さらに, 先行抵抗率 (PRR) と, RRR (Reasoning Retention Rate) , RRR (Reasoning Retention Rate) の2つの指標を導入する。実験では、すべてのモデルが事実から反現実的な設定へと著しく劣化していることが示されている。さらなる分析は、現在のT2Iモデルが世界の知識と視覚的外観を密結合パターンとしてエンコードしているため、これらの失敗が発生することを示唆している。その結果、トレーニングデータ内の頻繁な視覚的共起に大きく依存しているため、カウンターファクトの世界をレンダリングするタスクを行う場合には、慣れ親しんだコモンセンスをデフォルトにせざるを得なくなる。

関連論文リスト

Benchmarking and Enhancing Text-to-Image Models for Generating Visual Representations in Early Arithmetic Education [57.241885377686486]
本稿では,算術方程式から有意義な視覚を生成するタスクである方程式対視覚生成について紹介する。 E2V-Benchは、4つの台座を持つ視覚的タイプにまたがるベンチマークであり、視覚的正当性を評価するための自動指標である。評価の結果,最近のテキスト・トゥ・イメージ(T2I)モデルでは誤りが頻繁に発生し,誤りは不正確なオブジェクト数と破壊的リレーショナル構造に支配されることがわかった。
論文参考訳（メタデータ） (2026-05-29T12:18:08Z)
When Pretty Isn't Useful: Investigating Why Modern Text-to-Image Models Fail as Reliable Training Data Generators [8.125052877783043]
この研究は、実際のトレーニングセットのスケーラブルな代替として、合成データの約束を再考する。 2022年から2025年の間に、最先端のT2Iモデルを用いて大規模な合成データセットを生成する。視覚的忠実さと即効性の進歩にもかかわらず、実際のテストデータの分類精度は、トレーニングデータジェネレータとしての新しいT2Iモデルによって一貫して低下する。
論文参考訳（メタデータ） (2026-02-23T15:15:53Z)
Envision: Benchmarking Unified Understanding & Generation for Causal World Process Insights [41.385614383367205]
現在のモデルは、理解と生成を統一することで、単一モダリティ表現の限界を超越することを目的としている。トレーニングと評価における静的な単一イメージ生成への依存は、静的パターンマッチングとセマンティックフュージョンに過度に適合する。本稿では,連鎖型テキスト・マルチ画像生成のための因果事象進行ベンチマークEnvisionを提案する。
論文参考訳（メタデータ） (2025-12-01T15:52:31Z)
Beyond Words and Pixels: A Benchmark for Implicit World Knowledge Reasoning in Generative Models [15.983959465314749]
我々は、暗黙の世界の知識とT2Iモデルの物理的因果推論の把握を評価する最初の総合的なベンチマークであるPicWorldを紹介する。このベンチマークは、3つのコアカテゴリにわたる1,100のプロンプトで構成されている。我々は、PicWorldで17の主流モデルT2Iを徹底的に分析し、暗黙の世界知識と物理的因果推論の能力に普遍的に限界があることを示した。
論文参考訳（メタデータ） (2025-11-23T03:44:54Z)
AcT2I: Evaluating and Improving Action Depiction in Text-to-Image Models [58.85362281293525]
本稿では、アクション中心のプロンプトから画像を生成する際のT2Iモデルの性能を評価するためのベンチマークであるAcT2Iを紹介する。我々は、先行するT2IモデルがAcT2Iにうまく対応していないことを実験的に検証した。我々は,この制限に対処するために,大規模言語モデルを用いた訓練不要の知識蒸留技術を開発した。
論文参考訳（メタデータ） (2025-09-19T16:41:39Z)
ReasonGen-R1: CoT for Autoregressive Image generation models through SFT and RL [54.100889131719626]
連鎖推論と強化学習がNLPの突破口となった。我々はReasonGen-R1を紹介した。ReasonGen-R1は自動回帰画像生成器に明示的なテキストベースの「思考」スキルを付与するフレームワークである。 ReasonGen-R1は、強いベースラインや先行技術モデルよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2025-05-30T17:59:48Z)
WorldGenBench: A World-Knowledge-Integrated Benchmark for Reasoning-Driven Text-to-Image Generation [38.196609962452655]
textbfWorldGenBenchは、T2Iモデルの世界の知識基盤と暗黙の推論能力を評価するために設計されたベンチマークである。提案するtextbfKnowledge Checklist Scoreは,生成した画像がキーセマンティックな期待値を満たす度合いを計測する構造化メトリクスである。本研究は,次世代T2Iシステムにおいて,より深い理解と推論機能の必要性を強調した。
論文参考訳（メタデータ） (2025-05-02T17:59:06Z)
RealRAG: Retrieval-augmented Realistic Image Generation via Self-reflective Contrastive Learning [54.07026389388881]
第1回リアルタイムオブジェクトベース検索拡張生成フレームワーク(RealRAG)を提案する。 RealRAGは、生成モデルの知識ギャップを克服するために、現実世界の画像の学習と検索によって、細粒で目に見えない新しいオブジェクトを生成する。本フレームワークは, 生成モデルに対するきめ細かな視覚的知識を統合し, 歪み問題に対処し, オブジェクト生成における現実性を改善する。
論文参考訳（メタデータ） (2025-02-02T16:41:54Z)
PhyBench: A Physical Commonsense Benchmark for Evaluating Text-to-Image Models [50.33699462106502]
テキスト・トゥ・イメージ(T2I)モデルは、物理コモンセンスと整合した画像を生成するのにしばしば失敗する。現在のT2I評価ベンチマークは、精度、バイアス、安全性などの指標に焦点を当て、モデルの内部知識の評価を無視している。メカニクス,光学,熱力学,材料特性の4つのカテゴリに700のプロンプトを含む総合的なT2I評価データセットであるPhyBenchを紹介する。
論文参考訳（メタデータ） (2024-06-17T17:49:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。