Fugu-MT 論文翻訳(概要): Optimal Hidden-Target Learning for Online Inventory Optimization on General Convex Sets

論文の概要: Optimal Hidden-Target Learning for Online Inventory Optimization on General Convex Sets

arxiv url: http://arxiv.org/abs/2606.14679v1
Date: Fri, 12 Jun 2026 17:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 16:00:43.019853
Title: Optimal Hidden-Target Learning for Online Inventory Optimization on General Convex Sets
Title（参考訳）: 一般凸集合上のオンラインインベントリ最適化のための最適隠れターゲット学習
Authors: Anthony Pineci, Yunzong Xu,
Abstract要約: オンラインインベントリ最適化(オンラインインベントリ最適化、OIO)は、物理メモリの転送を伴うオンライン凸最適化である。自然な原則は、オンライン学習者が選択した隠れターゲットを維持し、現在実現可能なオーダーアップセットへのプロジェクションを実装することである。この単純な原理は任意の有界凸容量集合上でのOIOに対して最適であることを示す。
参考スコア（独自算出の注目度）: 0.5829691746811781
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Online inventory optimization (OIO) is online convex optimization with physical memory: inventory carryover makes the feasible action set depend on the past. A natural principle, used in stochastic inventory learning and recently in OIO under a single linear capacity constraint, is to maintain a hidden target chosen by an online learner and implement its projection onto the currently feasible order-up-to set. We prove that this simple principle is optimal for OIO on arbitrary bounded convex capacity sets. With online gradient descent as the base learner, the method improves the best known regret guarantee for OIO on general convex sets from inverse to inverse-square-root dependence on the common-demand probability, and we prove a matching lower bound. The same principle gives the first polylogarithmic regret guarantee for strongly convex losses and the first dynamic regret guarantee adapting to Euclidean path variation on general convex capacity sets. The analysis introduces a norm alignment principle: the right state variable is the distance from the hidden target to the feasible set, measured in the same norm as the projection. Under norm alignment, this distance evolves pathwise as a scalar queue, with target movement as arrival and common demand as service. This reduction to one-dimensional queue control resolves the state dependence and extends the guarantees to general convex capacity sets, beyond the reach of prior productwise approaches. Experiments on synthetic and real-world inventory data corroborate the theory.
Abstract（参考訳）: オンラインインベントリ最適化(オンラインインベントリ最適化、OIO)は、物理メモリによるオンラインコンベックス最適化である。確率的在庫学習や近年のOIOでは、オンライン学習者が選択した隠れターゲットを維持し、現在実現可能なオーダーアップ・トゥ・セットにプロジェクションを実装する、という自然な原則がある。この単純な原理は任意の有界凸容量集合上でのOIOに対して最適であることを示す。オンラインの勾配降下をベース学習として,一般凸集合上でのOIOに対する最もよく知られた後悔の保証を,共通要求確率に対する逆から逆2乗根の依存性から改善し,一致した下界を証明した。同じ原理は、強い凸損失に対する最初の多対数的後悔保証と、一般凸容量集合上のユークリッド経路の変化に対応する最初の動的後悔保証を与える。正しい状態変数は、射影と同じノルムで測定された隠れターゲットから実現可能な集合までの距離である。標準アライメントの下では、この距離はスカラーキューとしてパスワイズに進化し、目標運動が到着し、サービスとしての共通の需要が生じる。この1次元キュー制御への還元は、状態依存を解消し、保証を以前の製品的アプローチの範囲を超えて、一般的な凸容量集合にまで拡張する。合成および実世界の在庫データに関する実験は、この理論を裏付けるものである。

関連論文リスト

Revisiting Zeroth-Order Hessian Approximation: A Single-Step Policy Optimization Lens [18.253856190297405]
ZoVH は、フル・ヘッセン行列、正則化逆数、バイアス補正された逆ヘッセン勾配積に対する分散還元された推定器のスイートである。実世界のアプリケーションにおいて,ZoVHはより優れた推定精度と収束性能が得られることを示す。
論文参考訳（メタデータ） (2026-05-29T07:55:57Z)
PRISM: Parallel Residual Iterative Sequence Model [52.26239951489612]
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。 PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
論文参考訳（メタデータ） (2026-02-11T12:39:41Z)
Mirror Descent Under Generalized Smoothness [23.5387392871236]
一般ノルムと双対という観点からヘッセンのノルムを測定する新しい$ell*$-smoothnessの概念を導入する。我々は、古典的な滑らかさの下でのレートに一致するミラー・ディフレッシュ型アルゴリズムの収束性を確立する。
論文参考訳（メタデータ） (2025-02-02T11:23:10Z)
Directional Smoothness and Gradient Methods: Convergence and Adaptivity [16.779513676120096]
我々は、最適化の経路に沿った目的の条件付けに依存する勾配降下に対する新しい準最適境界を開発する。我々の証明の鍵となるのは方向の滑らかさであり、これは、目的の上のバウンドを開発するために使用する勾配変動の尺度である。我々は,方向の滑らかさの知識を使わずとも,ポリアクのステップサイズと正規化GDが高速で経路依存の速度を得ることを示した。
論文参考訳（メタデータ） (2024-03-06T22:24:05Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。本手法は, 精度の高い問題に特に適している。提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文参考訳（メタデータ） (2023-11-08T00:10:21Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは経験的に過剰フィットを防げる中心的存在ですこの研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文参考訳（メタデータ） (2021-03-23T17:15:53Z)
The Strength of Nesterov's Extrapolation in the Individual Convergence of Nonsmooth Optimization [0.0]
ネステロフの外挿は、非滑らかな問題に対して勾配降下法の個人収束を最適にする強さを持つことを証明している。提案手法は,設定の非滑らかな損失を伴って正規化学習タスクを解くためのアルゴリズムの拡張である。本手法は,大規模な1-正規化ヒンジロス学習問題の解法として有効である。
論文参考訳（メタデータ） (2020-06-08T03:35:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。