論文の概要: Efficient Reinforcement for Visual-Textual Thinking with Discrete Diffusion Model
- arxiv url: http://arxiv.org/abs/2606.14792v1
- Date: Thu, 11 Jun 2026 07:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.160636
- Title: Efficient Reinforcement for Visual-Textual Thinking with Discrete Diffusion Model
- Title(参考訳): 離散拡散モデルを用いた視覚的テキスト思考のための効率的な強化
- Authors: Yoonjeon Kim, Yuhta Takida, Chieh-Hsin Lai, Eunho Yang, Yuki Mitsufuji,
- Abstract要約: マルチモーダル離散拡散モデル(英語版)は、インターリーブ推論における強化学習のためのARモデルの効果的な代替手段である。
共同報酬代入は、モダリティ間で共有報酬信号を使用し、RL更新中に相互干渉を導入する。
テキストと視覚セグメントに独立して報酬を割り当てる戦略である因子化報酬割り当てを提案する。
- 参考スコア(独自算出の注目度): 70.56994065819471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RL-based post-training has been widely adopted to enable interleaved visual and textual reasoning in unified multimodal models capable of both text and image generation. However, most existing approaches are built upon autoregressive (AR) unified models, which require full image regeneration during visual reasoning. In this work, we demonstrate that multimodal discrete diffusion models are effective alternatives to AR models for reinforcement learning in interleaved reasoning, owing to their ability to perform efficient visual rollouts via localized visual editing rather than full image-token regeneration. This reduces rollout computation during GRPO by 26.9\% compared to AR baselines, with minimal performance drop. Despite the improved efficiency, we find that joint reward assignment, which employs a shared reward signal across modalities, introduces cross-modal interference between unrelated image and text token sequences during RL updates. To address this issue, we propose factorized reward assignment, a strategy that assigns rewards independently to text and vision segments. With factorized reward assignment, our RL approach achieves an 11.2% improvement over joint reward assignment and a 38.04% improvement over the base model.
- Abstract(参考訳): RLベースのポストトレーニングは、テキストと画像の両方を生成できる統一マルチモーダルモデルにおいて、インターリーブされた視覚的およびテキスト的推論を可能にするために広く採用されている。
しかし、既存のほとんどのアプローチは自己回帰(AR)統一モデルに基づいて構築されており、視覚的推論において完全な画像再生が必要である。
本研究では,マルチモーダル離散拡散モデルが,画像の完全再生ではなく,局所的な視覚的編集によって効率的な視覚的ロールアウトを行う能力により,相互開き推論における強化学習のためのARモデルの効果的な代替手段であることを示す。
これにより、GRPO中のロールアウト計算がARベースラインに比べて26.9%削減され、パフォーマンスが低下する。
効率が向上したにもかかわらず、共同報酬代入はモダリティ間で共有報酬信号を用いており、RL更新中に非関連画像とテキストトークンシーケンス間の相互干渉を導入している。
この問題に対処するために、テキストや視覚セグメントに独立して報酬を割り当てる戦略である分解報酬割当てを提案する。
因子的報酬割り当てでは、我々のRLアプローチは、共同報酬割り当てよりも11.2%改善し、ベースモデルより38.04%改善した。
関連論文リスト
- Enhancing Diffusion-based Restoration Models via Difficulty-Adaptive Reinforcement Learning with IQA Reward [93.04811239892852]
強化学習(Reinforcement Learning, RL)は近年, 拡散モデルに組み入れられている。
本稿では,拡散型修復モデルにRLを効果的に組み込む方法について検討する。
論文 参考訳(メタデータ) (2025-11-03T14:57:57Z) - AR-GRPO: Training Autoregressive Image Generation Models via Reinforcement Learning [56.71089466532673]
本稿では,自己回帰(AR)画像生成モデルにオンラインRLトレーニングを統合するアプローチであるAR-GRPOを提案する。
クラス条件(クラス・ツー・イメージ)とテキスト条件(テキスト・ツー・イメージ)の両方のイメージ生成タスクについて包括的な実験を行う。
その結果,様々な評価指標に対して一貫した改善が得られた。
論文 参考訳(メタデータ) (2025-08-09T10:37:26Z) - PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning [50.21619363035618]
本稿では,マルチモーダルタスクのインターリーブに適した汎用強化学習手法PeRLを提案する。
空間的および位置的多様性を探索するために、様々な位置関係をシミュレートするために、画像列の置換を導入する。
実験の結果,PeRLのトレーニングモデルは,VLMベースラインを大きなマージンで,R1関連およびインターリーブしたVLMベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-17T18:25:56Z) - Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization [1.1510009152620668]
強化学習(Reinforcement Learning, RL)を用いた微調整事前学習生成モデルは, 出力と人間の嗜好を整合させる効果的なアプローチとして登場した。
RLに基づくファインチューニングは、VARモデルに対して効率的かつ効果的であり、特に高速な推論速度の恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2025-05-29T10:45:38Z) - Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO [68.44918104224818]
自己回帰画像生成は、Chain-of-Thought(CoT)推論とは異なる固有の課題を示す。
本研究は,自己回帰画像生成におけるGRPOアルゴリズムとDPOアルゴリズムの総合的研究である。
以上の結果から,GRPOとDPOは異なる優位性を示し,本質的な一般化能力を有する報酬モデルが適用されたRLアルゴリズムの一般化可能性を高める可能性が示唆された。
論文 参考訳(メタデータ) (2025-05-22T17:59:49Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。