論文の概要: Distribution-Aware Robust Bilevel Optimization: Quantile-Guided Huber Updates in Two-Timescale Stochastic Approximation
- arxiv url: http://arxiv.org/abs/2606.22436v1
- Date: Sun, 21 Jun 2026 10:57:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:14:00.258879
- Title: Distribution-Aware Robust Bilevel Optimization: Quantile-Guided Huber Updates in Two-Timescale Stochastic Approximation
- Title(参考訳): 分布を考慮したロバスト二値最適化:2時間確率近似における量子誘導ハマー更新
- Authors: Zhiyu Li, Xi Xuan, Davide Carbone,
- Abstract要約: 双レベル最適化(BLO)は階層的な決定には基本的だが、重み付き雑音下での臨界不安定性に悩まされている。
既存の技術は通常、等級チェックに依存しており、情報的幾何学的信号と外れ値の区別に失敗する。
- 参考スコア(独自算出の注目度): 16.106678611834102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bilevel optimization (BLO) is fundamental to hierarchical decision-making but suffers from critical instability under heavy-tailed stochastic noise. Existing variance-reduction techniques typically rely on myopic magnitude checks, which fail to distinguish informative geometric signals from impulsive outliers. To resolve this, we propose \textbf{RQ-TTSA} (Robust Quantile-guided TTSA), a distribution-aware framework that leverages historical gradient buffers to estimate rolling quantiles for adaptive Huber-style clipping, effectively preserving local optimization geometry while strictly bounding effective variance. Theoretically, we provide a convergence analysis for quantile-guided TTSA under nonconvex-strongly convex assumptions with infinite-variance noise ($p \in (1,2]$), deriving a rate of $\mathcal{O}(T^{-\frac{p-1}{3p-2}})$ that recovers optimal dependence on the heavy-tailed parameter. Empirically, across six diverse tasks, spanning heterogeneous vision benchmarks, dynamic games under momentum poisoning, and offline reinforcement learning, RQ-TTSA consistently outperforms state-of-the-art baselines by eliminating divergence spikes and ensuring stable convergence. Our method demonstrates significant robustness to hyperparameter variations and incurs negligible computational overhead ($\approx 2.7\%$ increase), validating distribution-aware gradient control as a practical and necessary component for reliable bilevel learning.
- Abstract(参考訳): 双レベル最適化(BLO)は階層的決定には基本的だが、重み付き確率雑音下での臨界不安定性に悩まされている。
既存の分散還元技術は、通常は筋力検査に依存しており、情報的幾何学的信号と衝動的外れ値との区別に失敗する。
この問題を解決するために,従来のグラデーションバッファを応用した分布対応フレームワークであるtextbf{RQ-TTSA(Robust Quantile-guided TTSA)を提案する。
理論的には、無限分散雑音を持つ非凸凸仮定(p \in (1,2]$)の下で量子誘導TTSAの収束解析を行い、重み付きパラメータへの最適依存を回復する$\mathcal{O}(T^{-\frac{p-1}{3p-2}})$を導出する。
経験的には、異種視覚ベンチマーク、運動量中毒下のダイナミックゲーム、オフライン強化学習の6つのタスクにまたがって、RQ-TTSAはばらつきのスパイクを排除し、安定した収束を確保することで、常に最先端のベースラインを上回っている。
提案手法は,超パラメータ変動に対する顕著なロバスト性を示し,信頼度の高い二段階学習のための実用的かつ必要な要素として分布認識勾配制御を検証し,無視可能な計算オーバーヘッド($2.7 %)を生じさせる。
関連論文リスト
- Escaping the Variance Trap: Jacobian-Free Dynamics for Root-Finding Bilevel Optimization [16.106678611834102]
多くの中央機械学習タスクは、最小化損失よりも根本問題である。
正方形残差は、私たちが変数トラップと同一視する重大な欠陥を導入します。
標準バイレベル最小化アルゴリズムは、暗黙のジャコビアンを含む過勾配を推定する必要がある。
我々は,2時間スケール近似(TTSA)を用いて,ルートエラーに沿って直接更新するヤコビフリーソリューションを提案する。
論文 参考訳(メタデータ) (2026-06-21T10:53:32Z) - Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Holder Policy Optimisation [26.521180498291717]
textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
論文 参考訳(メタデータ) (2026-05-12T12:45:03Z) - Central Limit Theorem for Two-Time-Scale Approximate Distributionally Robust RL [8.809468023364703]
堅牢な強化学習アルゴリズムの設計は根本的な課題を生んでいる。
本稿では、関連するロバスト関数の1次展開に基づく近似DRRLフレームワークを提案する。
この近似方程式の定点を学習するために,平均変数近似(MVSA)を提案する。
論文 参考訳(メタデータ) (2026-05-08T19:24:28Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - On the Power of Perturbation under Sampling in Solving Extensive-Form Games [56.013335390600524]
本研究では, サンプリング対象の広義ゲームにおいて, 摂動がいかにしてFTRL(Follow-the-Regularized-Leader)アルゴリズムを改良するかを検討する。
我々は、textitPerturbed FTRLアルゴリズムの統一フレームワークを提案し、PFTRL-KLとPFTRL-RKLの2つの変種について検討する。
論文 参考訳(メタデータ) (2025-01-28T00:29:38Z) - Breaking the Heavy-Tailed Noise Barrier in Stochastic Optimization Problems [56.86067111855056]
構造密度の重み付き雑音によるクリップ最適化問題を考察する。
勾配が有限の順序モーメントを持つとき、$mathcalO(K-(alpha - 1)/alpha)$よりも高速な収束率が得られることを示す。
得られた推定値が無視可能なバイアスと制御可能な分散を持つことを示す。
論文 参考訳(メタデータ) (2023-11-07T17:39:17Z) - Distributionally Robust Optimization with Bias and Variance Reduction [9.341215359733601]
勾配に基づくアルゴリズムであるProspectは、スムーズな正規化損失に対する線形収束を享受していることを示す。
また、勾配法のようなベースラインよりも2~3$times$早く収束できることも示している。
論文 参考訳(メタデータ) (2023-10-21T00:03:54Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。