論文の概要: InterleaveThinker: Reinforcing Agentic Interleaved Generation
- arxiv url: http://arxiv.org/abs/2606.13679v2
- Date: Fri, 12 Jun 2026 06:34:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 13:53:03.78753
- Title: InterleaveThinker: Reinforcing Agentic Interleaved Generation
- Title(参考訳): InterleaveThinker: エージェントインターリーブ生成の強化
- Authors: Dian Zheng, Harry Lee, Manyuan Zhang, Kaituo Feng, Zoey Guo, Ray Zhang, Hongsheng Li,
- Abstract要約: 我々はInterleaveThinkerを紹介した。InterleaveThinkerは、インターリーブ生成機能を備えた既存のイメージジェネレータをサポートするように設計された最初のマルチエージェントパイプラインである。
具体的には、イメージテキスト入力シーケンスを整理するためにプランナーエージェントを使用し、各ステップで必要な実行をイメージジェネレータに指示する。
次に, 発電機の出力を評価し, 計画された指示から逸脱するサンプルを同定し, 再生指示を洗練するための批判エージェントを紹介する。
- 参考スコア(独自算出の注目度): 37.528182608182554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.
- Abstract(参考訳): 最近の画像生成装置は、単一画像の生成と編集において、印象的なフォトリアリズムと命令追従能力を示している。
しかし、アーキテクチャによって制約されているため、視覚的物語、ガイダンス、具体的操作において重要な応用を持つインターリーブド世代(テキストイメージシーケンス)は達成できない。
最新のオープンソースUnified Multimodal Models (UMMs)でさえ、この点において限られた性能を示している。
本稿では,既存の画像生成器にインターリーブ生成機能を持たせるために設計された,最初のマルチエージェントパイプラインであるInterleaveThinkerを紹介する。
具体的には、イメージテキスト入力シーケンスを整理するためにプランナーエージェントを使用し、各ステップで必要な実行をイメージジェネレータに指示する。
次に, 発電機の出力を評価し, 計画された指示から逸脱するサンプルを同定し, 再生指示を洗練するための批判エージェントを紹介する。
このパイプラインを実装するために,Interleave-Planner-SFT-80kとInterleave-Critic-SFT-112kを構築し,フォーマットコールドスタートを実行する。
そして、GRPOを用いた生成軌道におけるステップワイド命令補正機能を強化するために、Interleave-Critic-RL-13kを開発した。
単一のインターリーブ生成軌道は25以上のジェネレータ呼び出しを伴う可能性があるため、全軌道を最適化することは計算的に不可能である。
そこで我々は,1ステップのRLが生成軌道全体を効果的に導くことができるように,精度の高い報酬とステップワイズ報酬を提案する。
その結果、InterleaveThinkerは様々な画像ジェネレータのパフォーマンスを向上させることがわかった。
インターリーブ世代ベンチマークでは、Nano BananaやGPT-5に匹敵するパフォーマンスを実現している。
例えば4ステップのFLUX.2-kleinでは、WISEとRISEでかなりの利得を観測する。
関連論文リスト
- Disentangling Generation and Regression in Stochastic Interpolants for Controllable Image Restoration [30.480465453951982]
DiSIは、Interpolantプロセスを独立した生成および回帰コンポーネントに分離する統合フレームワークである。
本研究では,DiSIが画像復元タスクにおいて効率よく競合する結果を得ると同時に,単一モデル内での歪み知覚トレードオフを制御するための予測時間の柔軟性を独自に提供することを示す。
論文 参考訳(メタデータ) (2026-05-20T16:41:32Z) - GriDiT: Factorized Grid-Based Diffusion for Efficient Long Image Sequence Generation [77.13582457917418]
サブサンプルフレームからなる格子画像にのみ依存する生成モデルを訓練する。
本研究では,Diffusion Transformer (DiT) の強い自己アテンション機構を用いて,フレーム間の相関関係を捉えることで,画像系列を生成することを学ぶ。
我々の手法は、データセット間で、品質および推論速度(少なくとも2倍の速さ)において、一貫してSoTAを上回ります。
論文 参考訳(メタデータ) (2025-12-24T16:46:04Z) - Chain-of-Image Generation: Toward Monitorable and Controllable Image Generation [7.987662261007762]
CoIG(Chain-of-Image Generation)フレームワークは、画像生成を、人間がアートを作成する方法に類似したシーケンシャルでセマンティックなプロセスとして再構成する。
実験結果から,CoIGは確立されたベースラインモデルと比較して,競争力のあるロバスト性を実現しつつ,定量的監視性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-12-09T14:35:12Z) - Iterative Flow Matching -- Path Correction and Gradual Refinement for Enhanced Generative Modeling [6.343872515377999]
本稿では,フローマッチングが幻覚を発生させる理由を説明し,生成プロセスを改善するための反復的プロセスを提案する。
我々の反復的プロセスは、事実上$textitany$生成モデリング技術に統合することができ、それによって合成画像システムの性能と堅牢性を向上させることができる。
論文 参考訳(メタデータ) (2025-02-23T05:08:06Z) - Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step [86.69947123512836]
CoT(Chain-of-Thought)推論は、複雑な理解タスクに取り組むために大規模なモデルで広く研究されている。
自己回帰画像生成を促進するために,CoT推論の可能性について,初めて包括的調査を行った。
本稿では,自動回帰画像生成に特化したPARMとPARM++を提案する。
論文 参考訳(メタデータ) (2025-01-23T18:59:43Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。