論文の概要: DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2606.08035v1
- Date: Sat, 06 Jun 2026 07:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.681665
- Title: DyCo-RL: Dynamic Cross-Modal Coordination for Visual Reasoning
- Title(参考訳): DyCo-RL:ビジュアル推論のための動的クロスモーダル座標
- Authors: Hangui Lin, Yan Shu, Zhengyang Liang, Chi Liu, Xiangrui Liu, Minghao Qin, Teng Long, Zheng Liu, Nicu Sebe,
- Abstract要約: 動的クロスモーダルコーディネートとRLVR最適化を統合したDyCo-RLを提案する。
実験により、Qwen2.5-VL-3B/7Bに適用されたDyCo-RLは、4つの代表的なRLVRアルゴリズムを一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 49.985643703496514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a leading paradigm for enhancing visual reasoning in Multimodal Large Language Models (MLLMs). However, existing RLVR methods optimize primarily for the reasoning outcome, fundamentally overlooking the fine-grained cross-modal coordination required during the generation process. Through token-level analyses and controlled interventions, we reveal that during Chain-of-Thought (CoT) reasoning, MLLMs frequently fail to dynamically alternate between extracting visual evidence and synthesizing textual context-a coordination breakdown that is causally linked to reasoning failures. Motivated by these findings, we propose DyCo-RL, which integrates dynamic cross-modal coordination into RLVR optimization. Specifically, DyCo-RL uses the Fisher-Rao geodesic distance to measure within-modality attention shifts, assigning tokens to either visually-oriented or text-oriented functional roles. It then evaluates the alignment between a token's actual attention allocation and its assigned role, leveraging this score for alignment-guided advantage reweighting during policy optimization. Extensive experiments demonstrate that the algorithm-agnostic DyCo-RL, when applied to Qwen2.5-VL-3B/7B, consistently improves four representative RLVR algorithms across seven benchmarks spanning visual-centric and mathematical reasoning.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、マルチモーダル大規模言語モデル(MLLM)における視覚的推論を強化するための主要なパラダイムとして登場した。
しかし、既存のRLVR法は、主に推論結果のために最適化されており、基本的には生成プロセスで必要とされる細粒度の相互調整を見落としている。
トークンレベルの分析と制御された介入により、MLLMは、CoT(Chain-of-Thought)推論において、視覚的証拠の抽出と、推論失敗に因果的に関連付けられたテキストコンテキストの協調分解の合成を動的に交互に行うことができないことが判明した。
これらの結果から,動的クロスモーダルコーディネートとRLVR最適化を統合したDyCo-RLを提案する。
具体的には、DyCo-RLはFisher-Rao測地距離を用いて、モダリティ内での注意の変化を測定し、トークンを視覚的またはテキスト的機能的役割に割り当てる。
次に、トークンの実際のアテンションアロケーションとアサインされたロールとのアライメントを評価し、このスコアをポリシー最適化中のアライメント誘導によるアドバンテージリハイトに活用する。
Qwen2.5-VL-3B/7Bに適用されたアルゴリズム非依存のDyCo-RLは、視覚中心および数学的推論にまたがる7つのベンチマークで、4つの代表的なRLVRアルゴリズムを一貫して改善することを示した。
関連論文リスト
- CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning [20.44110921033217]
Reinforcement Learning with Verified Rewardsでは、コンテクストやプロンプトレベルのリウェイトがアルゴリズムレバーの中心として登場した。
本稿では,量子座標変換に基づく分布認識型プロンプト再重み付け手法CurveRLを提案する。
本研究は,RLVRアルゴリズムを解析・設計するための基本軸として,文脈分布制御を同定する。
論文 参考訳(メタデータ) (2026-05-23T01:18:55Z) - Bridging Perception and Reasoning: Token Reweighting for RLVR in Multimodal LLMs [51.60575965819268]
本稿では,この相互依存を明示的にモデル化するToken-Reweighting(ToR)戦略を提案する。
ToRは複数のマルチモーダル推論ベンチマークで一貫したパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-26T06:25:27Z) - Rethinking Token-Level Policy Optimization for Multimodal Chain-of-Thought [73.39221516441624]
マルチモーダル・チェーン・オブ・ソート(CoT)推論は、推論軌道を構築するために大きな視覚言語モデルを必要とする。
既存のReinforcement Learning with Verifiable Rewards (RLVR) 法は、様々な視覚的接地度を区別することなく、CoTを均一に扱う。
本稿では,隠れ状態の類似性に先立って認識を導き,トークンのエントロピーと統合する知覚探索ポリシー最適化(PEPO)を提案する。
論文 参考訳(メタデータ) (2026-03-24T06:38:00Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Spotlight on Token Perception for Multimodal Reinforcement Learning [65.97597482517425]
RLVR(Reinforcement Learning with Verifiable Rewards)は、LVLM(Large Vision-Language Models)の推論能力を向上した。
本稿では,トークン認識の新しい視点を通して,マルチモーダルRLVRの先駆的な探索を行う。
本稿では、トークン認識を明示的に活用して学習信号を洗練する新しいポリシー勾配アルゴリズムである視覚知覚政策最適化(VPPO)を提案する。
論文 参考訳(メタデータ) (2025-10-10T11:25:33Z) - Cross-Trajectory Representation Learning for Zero-Shot Generalization in
RL [21.550201956884532]
高次元の観察空間上のいくつかのタスクで学んだポリシーを、トレーニング中に見えない同様のタスクに一般化する。
この課題に対する多くの有望なアプローチは、RLを2つの関数を同時に訓練するプロセスと見なしている。
本稿では,RLエージェント内で動作するクロストラジェクトリ表現学習(CTRL, Cross-Trajectory Representation Learning)を提案する。
論文 参考訳(メタデータ) (2021-06-04T00:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。