論文の概要: CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs
- arxiv url: http://arxiv.org/abs/2606.19927v1
- Date: Thu, 18 Jun 2026 08:28:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.72838
- Title: CARE: Competence-Aware Reward Shaping for Adaptive Reasoning Length in Video-MLLMs
- Title(参考訳): CARE:ビデオMLLMにおける適応推論長に対するコンピテンス・アウェア・リワード・シェーピング
- Authors: Chengwen Liu, Hao Peng, Jisheng Dang, Hong Peng, Bin Hu, Tat-Seng Chua,
- Abstract要約: マルチモーダル推論における適応推論長最適化のための能力認識型報酬形成フレームワークであるCAREを提案する。
CAREは、パスレートの指数的な移動平均を通したスムーズなコンピテンス推定を維持し、それを訓練を進行段階にルートするために利用する。
複数のビデオ推論と一般的なビデオ理解ベンチマークの実験により、CAREは推論精度を一貫して改善し、強化学習を安定化し、トークン効率を大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 50.189987475377656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multimodal video reasoning, reinforcement learning-based methods typically rely on simplistic and inflexible reasoning-length control strategies that fail to adapt to the model's evolving competence. This mismatch may suppress necessary exploration at early stages, while encouraging redundant reasoning and inefficient decoding once the model becomes more competent. In this paper, we propose CARE, a competence-aware reward shaping framework for adaptive reasoning length optimization in multimodal reasoning. Specifically, CARE maintains a smoothed competence estimate via an exponential moving average of pass rates, and uses it to route training into progressive stages that shift the reward preference from exploration-oriented long-form reasoning to efficiency-oriented concise reasoning. To avoid conflating verbosity with intrinsic task complexity, CARE further normalizes reasoning effort with batch-level statistics, and introduces a posterior amplifier to strengthen reward signals for unexpectedly strong performance on historically difficult samples. The proposed mechanism is seamlessly integrated into the GRPO training pipeline and incurs no additional inference-time overhead. Extensive experiments on multiple video reasoning and general video understanding benchmarks demonstrate that CARE consistently improves reasoning accuracy, stabilizes reinforcement learning, and significantly enhances token efficiency. Moreover, CARE exhibits a characteristic inverted-U trajectory of reasoning length during training, and yields shorter yet more informative reasoning traces at convergence, indicating effective adaptive allocation of reasoning budget. We provide the source code for our proposed CARE framework and experiments at https://github.com/1Pansy/Video-CARE.
- Abstract(参考訳): マルチモーダルビデオ推論では、強化学習に基づく手法は通常、モデルの進化する能力に適応できない単純で柔軟性のない推論長の制御戦略に依存している。
このミスマッチは、モデルがより有能になると冗長な推論と非効率な復号を奨励しながら、初期の段階で必要な探索を抑制する可能性がある。
本稿では,多モーダル推論における適応推論長最適化のための能力認識型報酬形成フレームワークであるCAREを提案する。
特にCAREは、指数移動平均のパスレートを通したスムーズなコンピテンス推定を維持し、それを用いて、報酬の選好を探索指向のロングフォーム推論から効率指向の簡潔推論にシフトさせるプログレッシブステージにトレーニングをルーティングする。
固有タスク複雑性と重複する冗長性を回避するため、CAREはバッチレベルの統計量による推論作業を標準化し、歴史的に困難なサンプルに対して予期せぬ強い性能を示す報酬信号を強化するための後続増幅器を導入する。
提案するメカニズムはGRPOトレーニングパイプラインにシームレスに統合され、追加の推論時間オーバーヘッドは発生しない。
複数のビデオ推論と一般的なビデオ理解ベンチマークに関する大規模な実験により、CAREは推論精度を一貫して改善し、強化学習を安定化し、トークン効率を大幅に向上することを示した。
さらに、CAREは、トレーニング中の推論長の逆U軌道を特徴として示し、より短く、より情報的な推論トレースを収束時に生成し、推論予算の効果的な適応配置を示す。
提案したCAREフレームワークのソースコードと、https://github.com/1Pansy/Video-CAREでの実験を行います。
関連論文リスト
- Constraint-Rectified Training for Efficient Chain-of-Thought [60.52883907721588]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
より長い推論トレースは、自己訂正のような回答の品質とアンロック能力を改善することができるが、高い推論コストを発生させ、過度に考えることとして知られる冗長なステップをしばしば導入する。
近年の研究は、推論の長さと精度のバランスをとる効率的な推論戦略の開発を目指している。
論文 参考訳(メタデータ) (2026-02-13T02:13:45Z) - Does Your Reasoning Model Implicitly Know When to Stop Thinking? [45.954548163594204]
LRMは思考を止めるための適切な時間を暗黙的に知っているが、この能力は現在のサンプリングパラダイムによって隠蔽されている。
そこで我々は,この効率的な推論可能性を解き放つ新しいサンプリングパラダイムであるSAGEを紹介した。
論文 参考訳(メタデータ) (2026-02-09T07:38:22Z) - InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning [50.185363583880225]
InftyThink+は大規模な推論モデルのためのエンドツーエンドの強化学習フレームワークである。
InftyThink+は精度を21%向上し、従来の長鎖強化学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2026-02-06T18:59:27Z) - BARD: budget-aware reasoning distillation [25.725960386304646]
ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
論文 参考訳(メタデータ) (2025-11-03T11:30:18Z) - Incentivizing Consistent, Effective and Scalable Reasoning Capability in Audio LLMs via Reasoning Process Rewards [24.40159537923851]
音声大言語モデルにおけるロバストでスケーラブルな推論法を開発するための原理的手法を開発した。
MMAU 2.5 Pro と GPT-4o Audio をほぼ上回り、MMSU の推論タスクにおけるほぼ人間レベルの性能を向上する。
論文 参考訳(メタデータ) (2025-10-23T06:18:10Z) - Sycophancy Mitigation Through Reinforcement Learning with Uncertainty-Aware Adaptive Reasoning Trajectories [58.988535279557546]
適応推論トラジェクトリを用いたtextbf sycophancy Mitigation を提案する。
SMARTは,分布外の入力に対して強い性能を維持しながら,サイコファンティクスの挙動を著しく低下させることを示した。
論文 参考訳(メタデータ) (2025-09-20T17:09:14Z) - AALC: Large Language Model Efficient Reasoning via Adaptive Accuracy-Length Control [18.273777938294327]
大きな推論モデル(LRM)は、長いチェーン・オブ・シークレットを生成することで印象的な推論能力を達成する。
我々は、強化学習に組み込まれた軽量で精度の高い長さの報酬であるALCを紹介する。
提案手法は,元の精度を維持したり改善したりしながら,応答長を50%以上削減することを示す。
論文 参考訳(メタデータ) (2025-06-25T06:29:18Z) - Reasoning-Aligned Perception Decoupling for Scalable Multi-modal Reasoning [95.44766931218896]
MLLM(Multi-modal large language model)は、テキストベースの推論に遅れを取っている。
本稿では,MLLMの推論コンポーネントをモジュール化し,容易に置き換え可能なパーセプション推論デカップリングを提案する。
本稿では,視覚知覚最適化(VPO)と呼ばれる新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - PixelThink: Towards Efficient Chain-of-Pixel Reasoning [70.32510083790069]
PixelThinkは、外部から推定されるタスクの難しさと内部で測定されたモデルの不確実性を統合する、シンプルで効果的なスキームである。
シーンの複雑さと予測信頼度に応じて推論の長さを圧縮することを学ぶ。
実験により,提案手法は推論効率と全体セグメンテーション性能の両方を改善した。
論文 参考訳(メタデータ) (2025-05-29T17:55:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。