論文の概要: IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2606.24849v1
- Date: Tue, 23 Jun 2026 17:28:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.132879
- Title: IV-CoT: Implicit Visual Chain-of-Thought for Structure-Aware Text-to-Image Generation
- Title(参考訳): IV-CoT:構造認識型テキスト・画像生成のための視覚的連鎖
- Authors: Zixuan Li, Haokun Lin, Yicheng Xiao, Zhiwei Li, Xinyang Song, Zelong Zheng, Yong He, Heng Yao, Ke Ding, Chao Yu, Chuan Yuan, Qi Li, Zhenan Sun,
- Abstract要約: Implicit Visual Chain-of-conditioned (IV-CoT) は、クエリ・ソート画像生成のための潜在的な視覚的推論フレームワークである。
IV-CoTは、ビジュアルコンディショニングクエリを構造からセマンティックカスケードに分解する。
可視化と解析は、学習された構造的および意味的クエリが構造認識生成において相補的な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 45.4088603828487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multi-modal large language models (MLLMs) have achieved strong text-to-image generation quality, but still struggle with structure-aware prompt following, where object counts, spatial relations, attribute bindings, and coarse layouts must be preserved. We attribute this limitation in part to the entanglement of structural planning and appearance rendering within a single conditioning stream. To address this issue, we propose Implicit Visual Chain-of-Thought (IV-CoT), a latent visual reasoning framework for query-conditioned image generation. IV-CoT decomposes the visual conditioning queries into a structural-to-semantic cascade, where structural queries first form a latent visual plan and semantic queries then render appearance conditioned on this plan. To guide the structural queries, we introduce training-only sketch supervision, which encourages them to capture structure from sketches without requiring sketch extraction or intermediate decoding at inference time. IV-CoT performs implicit CoT reasoning in a single forward pass and achieves superior results on GenEval and T2I-CompBench. Visualizations and analyses demonstrate that the learned structural and semantic queries play complementary roles in structure-aware generation.
- Abstract(参考訳): 統一多モード大言語モデル(MLLM)は、強力なテキスト・画像生成の品質を達成しているが、オブジェクト数、空間関係、属性バインディング、粗いレイアウトを保存しなければならない構造対応プロンプトに苦慮している。
この制限は、構造的計画の絡み合いと、1つの条件付きストリームにおける外観レンダリングの絡み合いによるものである。
この問題に対処するために,クエリ条件付き画像生成のための潜在視覚推論フレームワークであるImplicit Visual Chain-of-Thought (IV-CoT)を提案する。
IV-CoTは、ビジュアルコンディショニングクエリを構造的から意味的なカスケードに分解する。
構造的クエリのガイドには,スケッチ抽出や中間復号を必要とせず,スケッチから構造をキャプチャする,トレーニングのみのスケッチ管理を導入する。
IV-CoTは1つのフォワードパスで暗黙のCoT推論を行い、GenEvalとT2I-CompBenchで優れた結果を得る。
可視化と解析は、学習された構造的および意味的クエリが構造認識生成において相補的な役割を果たすことを示す。
関連論文リスト
- SemStruct: Contextualizing Semantic Embeddings with Structural Information for Schema Matching [20.959946127503354]
グラフニューラルネットワーク(GNN)の構造帰納バイアスと冷凍PLMのセマンティックパワーを結合するフレームワークであるSemStructを提案する。
テーブルを、列と値が列で連結されたノードである異種グラフとしてモデル化し、GNNが構造全体にわたってあいまいなコンテキストを伝播できるようにする。
論文 参考訳(メタデータ) (2026-05-29T01:45:45Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Structure-R1: Dynamically Leveraging Structural Knowledge in LLM Reasoning through Reinforcement Learning [29.722512436773638]
本稿では,検索したコンテンツを推論に最適化した構造化表現に変換するフレームワークであるtextscStructure-R1を提案する。
textscStructure-R1は、7Bスケールのバックボーンモデルとの競合性能を一貫して達成していることを示す。
我々の理論的分析は,情報密度と文脈的明瞭度を向上させることによって,構造化表現が推論をいかに促進するかを示す。
論文 参考訳(メタデータ) (2025-10-16T23:19:28Z) - Struc-EMB: The Potential of Structure-Aware Encoding in Language Embeddings [16.728984584960738]
本稿では,構造認識テキストの埋め込み生成のための新しいパラダイムを,体系的に導入し,評価する。
本稿では,逐次連結と並列キャッシングという2つのプロセス内手法について検討する。
並列キャッシングは、長い高信号のコンテキストに対してより効果的にスケールするが、気晴らしにはより敏感である。
論文 参考訳(メタデータ) (2025-10-09T19:45:54Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - Unifying Structure Reasoning and Language Model Pre-training for Complex
Reasoning [26.811507121199323]
本稿では,明示的な構造推論と言語事前学習を組み合わせ,PLMと構造推論のスキルを融合した統合学習フレームワークを提案する。
まず、コンテクスト内のいくつかの基本構造を識別し、構造化されたクエリを構築し、クエリに沿ってステップバイステップの推論を行い、回答エンティティを識別する。
4つのデータセットに対する実験結果から,提案モデルが多様構造を含む複雑な推論タスクにおいて,大幅な改善を達成できることが示されている。
論文 参考訳(メタデータ) (2023-01-21T08:18:11Z) - Structured Multi-modal Feature Embedding and Alignment for
Image-Sentence Retrieval [12.050958976545914]
現在の最先端画像文検索手法は、視覚的テクスチャの断片を暗黙的に整列させる。
画像文検索のための構造的マルチモーダル特徴埋め込みとアライメントモデルを提案する。
特に、ビジュアルコンテキスト対応構造化木エンコーダ(VCS-Tree)とテキストコンテキスト対応構造化木エンコーダ(TCS-Tree)を共有ラベルで構築することにより、視覚的およびテキスト的フラグメントの関係をモデル化する。
論文 参考訳(メタデータ) (2021-08-05T07:24:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。