論文の概要: SD-GRPO: Verifiable Segment Decomposition for Long-Form Vision-Language Generation
- arxiv url: http://arxiv.org/abs/2606.09871v1
- Date: Tue, 02 Jun 2026 07:50:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.979095
- Title: SD-GRPO: Verifiable Segment Decomposition for Long-Form Vision-Language Generation
- Title(参考訳): SD-GRPO:長期ビジョンランゲージ生成のための検証可能なセグメント分解
- Authors: Hyunwoong Kim, Seongeun Lee, Hannah Yun, Junhyun Park, Jonggwon Park,
- Abstract要約: ロールアウトグループ全体で検証可能なセグメントごとの報酬を正規化するセグメンション分解GRPOを提案する。
SD-GRPOは、制御された3つの設定にまたがって、実世界の長期VQAタスクを評価する。
- 参考スコア(独自算出の注目度): 0.16777183511743465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Group Relative Policy Optimization (GRPO) and its variants, originally developed for Large Language Models (LLMs), have recently been applied to Multimodal LLMs and produced strong results. However, their coarse-grained holistic credit assignment from a single scalar advantage underfits vision-language (VL) tasks, where outputs are often long-form responses grounded in semantically rich images. To address this limitation, we exploit a structured signal that single-scalar formulations discard: the natural segmentation of long-form VL outputs. Concretely, we propose Segment-Decomposed GRPO (SD-GRPO), which z-normalizes verifiable per-segment rewards across the rollout group, yielding a vector of per-segment advantages in place of a single scalar. We evaluate SD-GRPO across three settings spanning controlled and real-world long-form VL generation, organized by increasing semantic entanglement across segments. On a controlled multi-panel dense-captioning task constructed from DOCCI, where segments are semantically independent, SD-GRPO consistently outperforms the GRPO baseline, with larger gains at higher segment counts. Extending to a controlled multi-chart long-form VQA task constructed from MultiChartQA, we show both theoretically and empirically that rollout-level rewards suffer from cross-segment credit misattribution that scales with output length. On a real-world scientific figure captioning task on the MMSci dataset, where subfigure captions share context across the figure, blending holistic and per-segment rewards further improves on both, suggesting per-segment normalization alone is insufficient when segments are semantically entangled. Finally, by integrating SD-GRPO into Dr. GRPO, we confirm that it can be applied to any GRPO framework with minimal implementation overhead to enhance long-form VL generation.
- Abstract(参考訳): Group Relative Policy Optimization (GRPO) とその変種は、Large Language Models (LLM) 向けに開発されたもので、最近マルチモーダル LLM に適用され、強力な結果が得られた。
しかしながら、単一のスカラー・アドバンテージから得られた粗い全体的クレジット割り当ては、視覚言語(VL)タスクに不適であり、出力は意味的にリッチな画像に基盤付けられた長い形式の応答であることが多い。
この制限に対処するために、単一スカラーの定式化が廃止される構造化信号を利用する:長めのVL出力の自然なセグメント化。
具体的には,Segment-Decomposed GRPO (SD-GRPO) を提案する。
セグメント間の意味的絡み合いを増大させ,制御された実世界の長周期VL生成にまたがる3つの設定におけるSD-GRPOの評価を行った。
セグメンテーションが意味的に独立なDOCCIから構築された制御されたマルチパネル密封タスクにおいて、SD-GRPOはGRPOベースラインを一貫して上回り、より高いセグメンション数でより大きなゲインを得る。
また,MultiChartQAから構築した制御型マルチチャート長形VQAタスクに拡張することで,ロールアウトレベルの報酬が出力長とともにスケールするクロスセグメントクレジットミス属性に悩まされることを理論的および実証的に示す。
MMSciデータセット上の実世界の科学的フィギュアキャプションタスクでは、サブフィギュアキャプションが図全体でコンテキストを共有するため、全体性とセグメントごとの報酬の混合がさらに改善され、セグメントが意味的に絡み合っている場合に、セグメントごとの正規化だけでは不十分であることが示唆される。
最後に,SD-GRPO を Dr. GRPO に統合することにより,実装オーバーヘッドが最小限である任意の GRPO フレームワークに適用できることを確認した。
関連論文リスト
- B-GRTO: Bootstrapped Group Relative Tool Optimization for Referring Segmentation [52.210953881548996]
異なるツールを使用するポリシーを共同で最適化するためのグループ相対ツール最適化(GRTO)を導入する。
GRTOは、グループ相対ポリシー最適化(GRPO)のロールアウトを再利用し、補助ツールの目的を最適化し、デコーダ勾配がポリシー報酬を補完する。
B-GRTOは、標準GRPOよりも大幅に改善され、ドメイン固有の最先端メソッドに適合または超越する。
論文 参考訳(メタデータ) (2026-05-22T11:04:12Z) - Qwen3-VL-Seg: Unlocking Open-World Referring Segmentation with Vision-Language Grounding [26.30521907946121]
Qwen3-VL-SegはMLLM予測ボックスを意味論的基盤構造として扱うパラメータ効率のよいフレームワークである。
その中核は、軽量のボックス誘導マスクデコーダで、マルチスケールの空間的特徴注入、空間意味的クエリ構築、ボックス誘導高解像度ピクセル融合を組み合わせている。
Qwen3-VL-Segはクローズドセットとオープンワールド設定で強く機能することを示す。
論文 参考訳(メタデータ) (2026-05-08T02:20:40Z) - From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space [78.36537400975298]
グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2026-03-13T04:35:13Z) - Reasoning-Driven Multimodal LLM for Domain Generalization [72.00754603114187]
DomainBed-Reasoning データセットを用いた領域一般化における推論の役割について検討する。
MTCT(Multi-Task Cross-Training)とSARR(Self-Aligned Reasoning Regularization)の2つのコンポーネントからなるフレームワークであるRD-MLDGを提案する。
標準のDomainBedデータセットの実験は、RD-MLDGが補完的な最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-02-27T08:10:06Z) - Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design [39.867923322793246]
本稿では,Look-to-Confirm 機構と Distribution-Ranked Reward モジュールで構成されるシンプルな GRPO ベースのフレームワークである Dr.Seg を提案する。
実験によると、Dr.Segは強力な一般化を維持しながら、複雑な視覚シナリオのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2026-02-25T07:59:42Z) - Understanding Generative Recommendation with Semantic IDs from a Model-scaling View [57.471604518714535]
Generative Recommendation (GR)は、リッチアイテムのセマンティクスと協調フィルタリング信号を統合する。
一般的なアプローチの1つは、セマンティックID(SID)を使用して、自動回帰ユーザーインタラクションシーケンスモデリングのセットアップでアイテムを表現することである。
SIDをベースとしたGRは,モデルをスケールアップしながら大きなボトルネックを示す。
我々は、大規模言語モデル(LLM)を直接レコメンデーションとして使用する別のGRパラダイムを再考する。
論文 参考訳(メタデータ) (2025-09-29T21:24:17Z) - Hierarchical Alignment-enhanced Adaptive Grounding Network for Generalized Referring Expression Comprehension [46.07415235144545]
一般参照表現(GREC)の課題に対処する。
既存のRECメソッドは、GRECで遭遇した複雑なケースを扱う際の課題に直面している。
階層的アライメント強化型適応グラウンドネットワーク(HieA2G)を提案する。
論文 参考訳(メタデータ) (2025-01-02T18:57:59Z) - Panoptic Out-of-Distribution Segmentation [11.388678390784195]
連立画素レベルのセマンティック・イン・ディストリビューションとインスタンス予測を用いたアウト・オブ・ディストリビューション分類のためのパノプティカル・アウト・オブ・ディストリビューションを提案する。
データセット、コード、トレーニングされたモデルをhttp://pods.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2023-10-18T08:38:31Z) - Boundary-aware Graph Reasoning for Semantic Segmentation [86.43045705799844]
セマンティックセグメンテーションのためのコンテキスト特徴を学習するための境界対応グラフ推論(BGR)モジュールを提案する。
我々のBGRモジュールはグラフ構築シナリオとセグメンテーションの誤った領域を組み合わせるための合理的な方法を模索している。
論文 参考訳(メタデータ) (2021-08-09T03:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。