論文の概要: Residual-Controlled Multiplier Learning for Stochastic Constrained Decision-Making
- arxiv url: http://arxiv.org/abs/2606.07088v2
- Date: Tue, 09 Jun 2026 09:03:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.704197
- Title: Residual-Controlled Multiplier Learning for Stochastic Constrained Decision-Making
- Title(参考訳): 確率的制約付き意思決定のための残差制御型乗算器学習
- Authors: Kang Liu, Jianchen Hu, Ziyu Qu, Edward Hengzhou Yan, Lun Yang, Meng Zhang,
- Abstract要約: CMLは、ミニバッチ条件下での一次フィードバック乗算器のノイズを追跡する問題に対処する。
乗算器を有限ゲイン乗算器と原始降下のための有効圧力信号に分解する。
- 参考スコア(独自算出の注目度): 12.04727482907937
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stochastic constrained decision-making requires optimizing performance objectives while enforcing statistical requirements such as safety or fairness. However, standard primal--dual methods struggle to update multipliers robustly under stochastic mini-batch feedback, as the noise of mini-batch gradients and constraint estimates can be directly accumulated into the multiplier memory. To address this issue, we propose Residual-Controlled Multiplier Learning (RCML), which reformulates multiplier updating as projected-pressure feedback. The central idea is to decompose the projected multiplier into an effective pressure signal for primal descent and a pressure-memory residual for finite-gain multiplier tracking. To handle heterogeneous and noisy observations, we further augment this residual-integral backbone with modular stochastic stabilization components. For the convex-affine backbone, we establish finite-gain convergence, derive a stochastic residual bound under mini-batch feedback, and show that the residual feedback law admits a local KKT-residual interpretation near regular KKT points of nonconvex problems. Experiments across optimization, allocation, and fair-ranking tasks show that RCML improves feasibility control and multiplier stability while maintaining competitive objective performance. Code is released at https://anonymous.4open.science/r/RCML-3114/.
- Abstract(参考訳): 確率的制約のある意思決定は、安全や公正といった統計的要求を強制しながら、パフォーマンス目標を最適化する必要がある。
しかし、最小二乗法は、最小バッチ勾配と制約推定のノイズを直接乗算器メモリに蓄積できるため、確率的最小バッチフィードバックの下で、乗算器を頑健に更新するのに苦労する。
この問題に対処するため,提案するResidual-Controlled Multiplier Learning (RCML)を提案する。
中心的な考え方は、投影された乗算器を原始降下のための効果的な圧力信号と有限ゲイン乗算器追跡のための圧力-残差に分解することである。
異種および雑音の観測に対処するため,モジュール型確率安定化成分を用いた残差積分バックボーンをさらに強化する。
凸-アフィンのバックボーンに対して、有限ゲイン収束を確立し、ミニバッチフィードバックの下で確率的残差を導出し、残差フィードバック法則が非凸問題の正規KKT点付近で局所KKT残差解釈を認めることを示す。
最適化、アロケーション、公平なタスクにわたる実験は、RCMLが競争目標性能を維持しながら、実現可能性制御と乗算器安定性を改善していることを示している。
コードはhttps://anonymous.4open.science/r/RCML-3114/で公開されている。
関連論文リスト
- Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - MARR: Module-Adaptive Residual Reconstruction for Low-Bit Post-Training Quantization [42.904834974723535]
モジュール適応残差再構成(MARR)を提案する。
MARRはモジュール固有のスケーリング係数を割り当て、各モジュールに対して累積エラー補正と残留関連HAバイアスを適応的にバランスさせる。
いくつかの典型的な大規模言語モデル(LLM)と視覚変換器(ViT)の実験は、低ビット量子化下でのMARRの有効性を実証している。
論文 参考訳(メタデータ) (2026-05-18T07:51:49Z) - SAGE: Shaping Anchors for Guided Exploration in RLVR of LLMs [55.46289074417954]
検証可能な報酬(RLVR)による強化学習は、推論タスクのpass@1を確実に改善するが、pass@kでは同等の利得を得られないことが多い。
中心的な構造的制約は、トレーニングを安定させるが、本質的には基準分布にポリシーを固定する逆-KL正規化から生じる。
我々は,逆KLアンカー分布自体を再構成することで,制御可能な経験的サポート拡張を可能にする,原則化されたフレームワークであるSAGEを提案する。
論文 参考訳(メタデータ) (2026-05-15T07:42:21Z) - Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Diffusion Controller: Framework, Algorithms and Parameterization [54.82539154511621]
本稿では,逆拡散サンプリングを(一般化された)線形解法マルコフ決定過程における状態のみの制御として活用する統一的な制御理論的視点を提案する。
このフレームワークでは、制御はトレーニング済みのリバースタイムのトランジションカーネルを再重み付けし、端末の目的と$f$分割コストのバランスをとる。
安定拡散v1.4の実験では、選好調整の勝利率が一貫した上昇を示し、品質効率のトレードオフを改善した。
論文 参考訳(メタデータ) (2026-03-07T01:49:59Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities [0.0]
非コン最適化タスクのための新しいアルゴリズムとしてVR-A-A(VarianceReduced-Ascent with Armijo)を提案する。
本手法は,手動学習スケジューリングへの依存度を低減して,限界周期を効果的に抑制し,収束を加速することを示す。
論文 参考訳(メタデータ) (2026-01-30T14:43:07Z) - Stability and Generalization for Bellman Residuals [8.250374560598493]
ベルマン残留最小化(BRM)はオフライン強化学習の魅力的な治療法として浮上している。
本稿では,SGDAが近傍のデータセット上で実行され,O(1/n)平均引数-安定性境界が得られる,単一のリアプノフポテンシャルを紹介する。
その結果、標準のニューラルネットワークパラメータ化とミニバッチSGDが得られた。
論文 参考訳(メタデータ) (2025-08-26T07:15:36Z) - Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化は損失関数に逆符号を持つ報酬項を導入する。
スペクトル安全性条件と信頼領域制約を定式化する。
我々は、プロジェクション演算子と勾配クリッピングを組み合わせた軽量な安全ガードを設計し、安定した介入を保証する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。