論文の概要: Reformulate LLM Reinforcement Learning for Efficient Training under Black-box Discrepancy
- arxiv url: http://arxiv.org/abs/2606.08779v1
- Date: Sun, 07 Jun 2026 18:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.442916
- Title: Reformulate LLM Reinforcement Learning for Efficient Training under Black-box Discrepancy
- Title(参考訳): ブラックボックスにおける効率的なトレーニングのためのLLM強化学習の改革
- Authors: Jiashun Liu, Runze Liu, Xu Wan, Jing Liang, Hongyao Tang, Ling Pan,
- Abstract要約: 強化学習は予測不可能なサブ最適パフォーマンスやトレーニング崩壊に悩まされることが多い。
適切な学習信号が与えられた場合,学習方針は,その相違点を積極的に自己修正できることがわかった。
本稿では,この問題をDCMDP(Disdisrepancy-Constrained Markov Decision Process)として定式化する。
- 参考スコア(独自算出の注目度): 27.237699512463475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has emerged as a pivotal post-training paradigm, yet it frequently suffers from unpredictable sub-optimum performance or even training collapses. Recent findings attribute these failures to a hidden train-inference discrepancy (or mismatch), stemming from the disparate underlying engines and architecture. We find that the training policy can actively self-correct such a discrepancy when provided with an appropriate learning signal. Then, we further empirically identify a discrepancy tolerance region: within this region, aggressively narrowing the discrepancy can suppress policy exploration and reduce learning efficiency, whereas outside this region, reducing excessive discrepancy improves optimization consistency and raises the achievable local performance ceiling. According to such findings, we formulate this problem as a Discrepancy-Constrained Markov Decision Process (DCMDP), where reward maximization is coupled with a constraint that aligns training-Inference behavior, achieving stable dual-objective optimization. To adaptively balance performance improvement and discrepancy control, we introduce a Lagrangian relaxation mechanism that dynamically adjusts the relative weight of the two objectives according to the current degree of discrepancy violation. This enables stable dual-objective optimization: the policy is allowed to explore freely within the tolerance region, while being guided back when the discrepancy exceeds the safe boundary. Empirically, DCMDP significantly improves the performance of 8B dense model (Qwen-3-8b) and 30B Mixture-of-Expert model (Qwen-3-30bA3b), and enables a heterogeneous training paradigm, where LLMs can be optimized in high-fidelity training setup while being explicitly aligned for low-cost, resource-constrained inference deployment.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、トレーニング後の重要なパラダイムとして登場したが、予測不可能なサブ最適パフォーマンスや、トレーニングの崩壊に悩まされることが少なくない。
最近の発見は、これらの故障は、異なる基礎となるエンジンとアーキテクチャから生じる、隠れた列車推論の相違(またはミスマッチ)に起因している。
適切な学習信号が与えられた場合,学習方針は,その相違点を積極的に自己修正できることがわかった。
この領域では、過度の不一致を減らすことにより、最適化の整合性が向上し、達成可能なローカルパフォーマンス天井が上昇するのに対し、この領域では、積極的に不一致を狭めることで、政策探索を抑え、学習効率を低下させることができる。
このような結果から,この問題を離散制約マルコフ決定過程 (DCMDP) として定式化し,報酬の最大化とトレーニング・推論動作の整合性を考慮した制約が組み合わされ,安定な二重目的最適化を実現する。
性能改善と相違性制御を適応的にバランスさせるため,両目標の相対重みを現在の相違性違反度に応じて動的に調整するラグランジアン緩和機構を導入する。
これにより、安定な二重目的最適化が可能となり、このポリシーは許容領域内を自由に探索でき、不一致が安全な境界を超えたときにガイドされる。
実証的に、DCMDPは8B高密度モデル(Qwen-3-8b)と30Bミクチャー・オブ・エクストラトモデル(Qwen-3-30bA3b)の性能を大幅に向上させ、低コストのリソース制約型推論デプロイメントに明示的に整列しつつ、高忠実度トレーニング設定でLLMを最適化できる異種トレーニングパラダイムを実現する。
関連論文リスト
- Uncertainty-Aware LLM-Guided Policy Shaping for Sparse-Reward Reinforcement Learning [2.384534878752428]
校正された大言語モデルを強化学習訓練ループに統合するフレームワークである,不確実性を考慮した LLM-Guided Policy Shaping (ULPS) を提案する。
ULPS は A* ベースのオラクルを用いて最適な記号軌道を合成し、BERT ベースの言語モデルを微調整する。
成功率、報酬効率、サンプルの複雑さを、無誘導、非校正、標準のRLベースラインで一貫した改善を観察する。
論文 参考訳(メタデータ) (2026-06-04T19:46:45Z) - Post-Hoc Robustness for Model-Based Reinforcement Learning [1.4072254177584387]
本研究は, 深部RL剤の加熱後強固化を推察時に導入する。
目標は、ニューラルネットワークのさらなるトレーニングを必要とせずに、堅牢性を改善することだ。
論文 参考訳(メタデータ) (2026-06-02T11:43:13Z) - Learning from Failures: Correction-Oriented Policy Optimization with Verifiable Rewards [73.44333771806282]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデルの推論能力向上に有効なパラダイムとして登場した。
本稿では,RLVRの簡易かつ効果的な拡張であるCIPO(Correction-Oriented Policy Optimization)を提案する。
CIPOは学習効率を向上し、モデルが自身のエラーを修正する能力を明示的に強化する。
論文 参考訳(メタデータ) (2026-05-14T08:22:21Z) - GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control [0.0]
GIRL(Generative Imagination Reinforcement Learning)は、この障害モードに2つの重要なコンポーネントで対処する潜在的世界モデルフレームワークである。
GIRLは、DreamerV3に対するタスク間の遅延ロールアウトドリフトを38~61%削減し、リターンを改善し、長距離タスクでの環境相互作用を少なくする。
蒸留前の変種はオーバーヘッドを減らし、フルモデルに対する計算効率を向上させる。
論文 参考訳(メタデータ) (2026-04-08T17:14:21Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Distributionally Robust Federated Learning with Outlier Resilience [8.69285602685459]
本研究では, 分散的頑健なフェデレーション学習について, 明確な外部レジリエンスを用いて検討した。
我々は、ロバスト性証明を許容するトラクタブルなラグランジアンペナルティ最適化として問題を再構築する。
この改革に基づいて,分散外乱フェデレーション学習アルゴリズムを提案し,その収束保証を確立する。
論文 参考訳(メタデータ) (2025-09-29T08:42:12Z) - Binarization-Aware Adjuster: Bridging Continuous Optimization and Binary Inference in Edge Detection [0.0]
画像エッジ検出(ED)は、トレーニングと推論の根本的なミスマッチに直面します。
本稿では,バイナリ化アウェア (BAA) を設計するための理論的手法を提案する。
BAAは二項化の挙動を勾配に基づく最適化に明示的に組み入れている。
論文 参考訳(メタデータ) (2025-06-14T11:56:44Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。