論文の概要: Stochastic Linear Contextual Bandits with Bounded Noise: A Set-Membership Approach
- arxiv url: http://arxiv.org/abs/2606.20022v1
- Date: Thu, 18 Jun 2026 09:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.780761
- Title: Stochastic Linear Contextual Bandits with Bounded Noise: A Set-Membership Approach
- Title(参考訳): 境界雑音を有する確率線形コンテキスト帯域:セット・メンバーシップアプローチ
- Authors: Haonan Xu, Yingying Li,
- Abstract要約: 境界付報酬雑音はガウス以下の条件よりも情報的だが、SLCBの文献では明確に利用されていない。
本稿では,セットメンバーシップ推定(SME)と呼ばれる不確実性定量化手法を用いて,不確実性(OFU)に直面した最適化の原理を適用した新しいアルゴリズムSME-OFUを提案する。
このアルゴリズムは,有界雑音が強いため,サブガウス雑音に対して$tildeO(sqrtT)$が改良された。
- 参考スコア(独自算出の注目度): 13.426300917962712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers stochastic linear contextual bandits (SLCB) with bounded reward noise. Existing works typically assume sub-Gaussian reward noise and bounded expected rewards, under which the optimal regret bound scales as $\tilde{O}(\sqrt{T})$ in terms of horizon $T$. However, in many applications, realized/observed rewards are also naturally bounded, implying bounded reward noise. Bounded noise is more informative than the sub-Gaussian condition but has not been leveraged explicitly in the SLCB literature. In this paper, we propose a novel algorithm SME-OFU by utilizing an uncertainty quantification method called set-membership estimation (SME) and applying the principle of optimism in the face of uncertainty (OFU). Our algorithm enjoys an improved regret bound $O(\log T)$. Notice that this does not contradict the existing optimal bound $\tilde{O}(\sqrt{T})$ for sub-Gaussian noise because bounded noise is a stronger condition. Finally, simulations show empirical improvements of SME-OFU over a benchmark algorithm designed for sub-Gaussian noise when the reward noise is bounded.
- Abstract(参考訳): 本稿では,有界報酬雑音を伴う確率線形文脈帯域(SLCB)について考察する。
現存する作品は、通常、準ガウス的報酬ノイズと有界な期待報酬を仮定し、そこでは最適の後悔境界は、地平線$T$で$\tilde{O}(\sqrt{T})$としてスケールする。
しかし、多くの応用において、実現/観測された報酬もまた自然に有界であり、有界な報酬ノイズを暗示する。
境界ノイズはガウス以下の条件よりも情報的だが、SLCBの文献では明確に利用されていない。
本稿では,セットメンバーシップ推定(SME)と呼ばれる不確実性定量化手法を用いて,不確実性(OFU)に直面した最適化の原理を適用し,新しいアルゴリズムSME-OFUを提案する。
我々のアルゴリズムは、改善された後悔付き$O(\log T)$を楽しむ。
有界ノイズが強い条件であるため、これはガウス下雑音に対する既存の最適境界$\tilde{O}(\sqrt{T})$と矛盾しない。
最後に,報奨雑音が有界な時,準ガウス雑音に対して設計されたベンチマークアルゴリズムに対して,SME-OFUを実証的に改善したことを示す。
関連論文リスト
- Noise-Adaptive High-Probability Regret Bounds for Online Convex Optimization [12.903796669387809]
オンライン凸最適化 (OCO) における高い確率的後悔境界について, 強い凸損失を伴って検討した。
雑音適応性, フィードバック構造, 制約満足度の交点において, オープンな質問を解決するための3つの結果を確立する。
論文 参考訳(メタデータ) (2026-06-06T07:40:55Z) - Variance-Aware Feel-Good Thompson Sampling for Contextual Bandits [54.220839560203096]
FGTSVA, 変分対応型トンプソンサンプリングアルゴリズムを提案する。
新しいデカップリング係数を$mathrmdc$で表すと、FGTS-VAは$tildeO(sqrtmathrmdccdotlog|mathcalF|$)を後悔する。
文脈線形帯域の設定において、FGTSVAの後悔境界は UCB ベースと一致する
論文 参考訳(メタデータ) (2025-11-03T23:25:41Z) - Optimal High-probability Convergence of Nonlinear SGD under Heavy-tailed Noise via Symmetrization [50.49466204159458]
雑音対称性に基づく2つの新しい推定器を提案する。
よりシャープな分析と改善されたレートを提供します。
モーメントと対称雑音を仮定する作業と比較して、よりシャープな解析と改善率を提供する。
論文 参考訳(メタデータ) (2025-07-12T00:31:13Z) - Gaussian Process Upper Confidence Bound Achieves Nearly-Optimal Regret in Noise-Free Gaussian Process Bandits [3.6985338895569204]
ノイズフリーGP-UCBのほぼ最適残響上限を示す。
具体的には、二乗指数核とマタン核のノイズフリー設定において、最初の一定の累積的後悔を示す。
論文 参考訳(メタデータ) (2025-02-26T10:10:51Z) - Lasso Bandit with Compatibility Condition on Optimal Arm [10.216425987201333]
文脈特徴のスパース部分のみが期待される報酬関数に影響を及ぼすような疎線型バンドイット問題を考える。
本稿では,強制サンプリング手法を適用したアルゴリズムを提案し,提案アルゴリズムが$O(textpolylog dT)$ regretを達成したことを証明した。
論文 参考訳(メタデータ) (2024-06-02T18:11:47Z) - Higher degree sum-of-squares relaxations robust against oblivious
outliers [14.58610686291355]
我々は、$Y=X*+N$という形の推定モデルを考える。
本稿では,2乗推定アルゴリズムが存在するすべての推定問題において,軽度仮定の下で信号が$X*$に回復するアルゴリズム群を紹介する。
論文 参考訳(メタデータ) (2022-11-14T13:09:12Z) - Optimal Online Generalized Linear Regression with Stochastic Noise and
Its Application to Heteroscedastic Bandits [88.6139446295537]
一般化線形モデルの設定におけるオンライン一般化線形回帰の問題について検討する。
ラベルノイズに対処するため、古典的追従正規化リーダ(FTRL)アルゴリズムを鋭く解析する。
本稿では,FTRLに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T08:25:26Z) - Misspecified Gaussian Process Bandit Optimization [59.30399661155574]
カーネル化されたバンディットアルゴリズムは、この問題に対して強い経験的および理論的性能を示した。
本稿では、未知関数を$epsilon$-一様近似で近似できるエンフェミス特定カーネル化帯域設定を、ある再生カーネルヒルベルト空間(RKHS)において有界ノルムを持つ関数で導入する。
提案アルゴリズムは,不特定性に関する事前知識を伴わず,$epsilon$への最適依存を実現する。
論文 参考訳(メタデータ) (2021-11-09T09:00:02Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z) - Thompson Sampling Algorithms for Mean-Variance Bandits [97.43678751629189]
我々は平均分散MABのためのトンプソンサンプリング型アルゴリズムを開発した。
我々はまた、ガウシアンとベルヌーイの盗賊に対する包括的後悔の分析も提供する。
我々のアルゴリズムは、全てのリスク許容度に対して既存のLCBベースのアルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2020-02-01T15:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。