論文の概要: RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation
- arxiv url: http://arxiv.org/abs/2606.23221v1
- Date: Mon, 22 Jun 2026 12:09:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:11:55.737523
- Title: RS-Gen: A Multi-Stage Agentic Framework for Reasoning and Search-Augmented Image Generation
- Title(参考訳): RS-Gen:Reasoning and Search-Augmented Image Generationのためのマルチステージエージェントフレームワーク
- Authors: Feifei Bian, Zhimin Zheng, Wei Deng, Daiguo Zhou, Jian Luan,
- Abstract要約: 本稿では,プラグイン・アンド・プレイ,トレーニングフリー,マルチステージ・イメージエージェント・フレームワークRS-Genを提案する。
RS-Genは、論理問題と知識ギャップを正確に識別するクエスト・アンド・ソルビング(Questioning-and-Solving)クローズドループ機構を革新的に導入している。
WISE Verified と RISEBench のベンチマークでは、RS-Gen は Qwen-Image で0.313、Qwen-Image-Edit-2511 で19.70 の絶対的なパフォーマンス向上を達成している。
- 参考スコア(独自算出の注目度): 12.610942044025473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed remarkable progress in image generation and editing, particularly regarding instruction following and visual fidelity. However, when handling ambiguous intentions, logical reasoning, and Out-of-Distribution (OOD) knowledge, existing image models often yield sub-optimal results due to a lack of deep reasoning capabilities and real-time external information. Although emerging unified understanding-and-generation models attempt to bridge this gap, they remain constrained by their intrinsic parameter scales and static knowledge gaps. Inspired by agentic paradigms, we propose RS-Gen: a plug-and-play, training-free, multi-stage image agentic framework. RS-Gen innovatively introduces a "Questioning-and-Solving" closed-loop mechanism to accurately identify logical issues and knowledge gaps, autonomously planning actions to bridge information deficits and execute deep logical reasoning. Extensive experiments demonstrate that RS-Gen significantly expands the capability boundaries of foundational image generation and editing models. Specifically, on the WISE Verified and RISEBench benchmarks, RS-Gen yields substantial absolute performance gains of 0.313 for Qwen-Image and 19.70 for Qwen-Image-Edit-2511, respectively, successfully elevating both to the state-of-the-art (SOTA) level among open-source models.
- Abstract(参考訳): 近年,画像生成と編集の進歩が目覚ましい。
しかし、曖昧な意図や論理的推論、アウト・オブ・ディストリビューション(OOD)の知識を扱う場合、既存の画像モデルは深い推論能力とリアルタイムな外部情報の欠如により、しばしば準最適結果をもたらす。
新たな統合理解世代モデルは、このギャップを橋渡ししようとするが、本質的なパラメータスケールと静的な知識ギャップに制約される。
エージェントのパラダイムに着想を得て,プラグアンドプレイ,トレーニングフリー,マルチステージ画像エージェントフレームワークRS-Genを提案する。
RS-Genは「クエスト・アンド・ソルビング」クローズドループ機構を導入し、論理的問題と知識ギャップを正確に識別し、情報不足をブリッジし、深い論理的推論を実行する自律的な計画行動を行う。
大規模な実験により、RS-Genは基礎画像生成および編集モデルの能力境界を大幅に拡張することが示された。
具体的には、WISE Verified と RISEBench のベンチマークにおいて、RS-Gen は Qwen-Image の0.313 と Qwen-Image-Edit-2511 の19.70 の絶対的な性能向上を達成し、オープンソースモデルのSOTA (State-of-the-art) レベルに到達した。
関連論文リスト
- GenShield: Unified Detection and Artifact Correction for AI-Generated Images [65.11434977803509]
GenShieldは、診断から修復までのクローズドループでAIGI検出とアーティファクト修正を実行するフレームワークである。
大規模なアーティファクト-restored'ペアを備えた高品質データセットは、統一された評価パイプラインと共に構築される。
論文 参考訳(メタデータ) (2026-05-15T16:06:20Z) - UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection [68.03391421239583]
共進化画像生成と生成画像検出のための統一生成識別フレームワークUniGenDetを提案する。
タスクギャップを埋めるために,マルチモーダルな共生型自己保持機構と統一的な微調整アルゴリズムを設計する。
提案手法は,複数のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-23T17:49:25Z) - Q-DeepSight: Incentivizing Thinking with Images for Image Quality Assessment and Refinement [58.15004031934379]
我々は、この人間のようなプロセスをエミュレートする思考とイメージのフレームワークであるQ-DeepSightを提案する。
Q-DeepSightは、自然、復元、AI生成コンテンツなど、さまざまなベンチマークで最先端のパフォーマンスを実現している。
本稿では,Q-DeepSight の診断が反復画像強調を導くトレーニングフリーフレームワークであるPerceptual-in-Generation (PiG) を用いて,その実用的価値を示す。
論文 参考訳(メタデータ) (2026-04-18T06:10:57Z) - RL-RIG: A Generative Spatial Reasoner via Intrinsic Reflection [18.52946282633359]
RL-RIGは、リフレクションベースの画像生成のための強化学習フレームワークである。
我々は,VLMアクタにプロンプトを編集するためのReflection-GRPOと,与えられたプロンプト下での画質向上のためのイメージエディタを開発する。
実験結果から,RL-RIGは既存のオープンソースモデルよりも最大11%優れており,画像生成における空間的推論の制御が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-02-23T15:39:53Z) - From Evidence to Verdict: An Agent-Based Forensic Framework for AI-Generated Image Detection [19.240335260177382]
AIFo(Agent-based Image Forensics)は、マルチエージェントコラボレーションによる人間の法医学的調査をエミュレートする、トレーニング不要のフレームワークである。
従来の手法とは異なり,本フレームワークでは,リバース画像検索,メタデータ抽出,事前学習型分類器,VLM解析など,一連の法医学的ツールを用いている。
我々の総合的な評価は6000のイメージに及び、現代の生成プラットフォームや多様なオンラインソースの画像を含む現実世界のシナリオに挑戦する。
論文 参考訳(メタデータ) (2025-10-31T18:36:49Z) - Open Multimodal Retrieval-Augmented Factual Image Generation [86.34546873830152]
Factual Image Generation(FIG)のためのエージェント型オープンマルチモーダル検索拡張フレームワークORIGを紹介する。
ORIGは、Webから反復的にマルチモーダルなエビデンスを検索してフィルタリングし、洗練された知識をリッチなプロンプトにインクリメンタルに統合し、生成をガイドする。
実験により、ORIGは強いベースラインよりも事実整合性と全体的な画像品質を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-26T04:13:31Z) - ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。
我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。
我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文 参考訳(メタデータ) (2025-09-24T07:34:09Z) - Autoregressive Image Generation with Vision Full-view Prompt [18.569610688433745]
自動回帰画像生成のための視覚フルビュープロンプト(VFプロンプト)を提案する。
NLPの分野でのプロンプトエンジニアリングにインスパイアされ、自動回帰画像生成を改善するためにビジョンフルビュープロンプト(VFプロンプト)を提案する。
論文 参考訳(メタデータ) (2025-02-24T08:44:01Z) - RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection [60.960988614701414]
RIGIDは、堅牢なAI生成画像検出のためのトレーニング不要でモデルに依存しない方法である。
RIGIDは、既存のトレーニングベースおよびトレーニング不要な検出器を著しく上回っている。
論文 参考訳(メタデータ) (2024-05-30T14:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。