論文の概要: Bandits for Efficient Experimentation: Adapting to Control Group, Preferences, and Context Drifts
- arxiv url: http://arxiv.org/abs/2606.09802v1
- Date: Mon, 08 Jun 2026 17:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.665719
- Title: Bandits for Efficient Experimentation: Adapting to Control Group, Preferences, and Context Drifts
- Title(参考訳): 効率的な実験のための帯域:制御群、選好、文脈ドリフトに適応する
- Authors: Udvas Das, Waris Radji, Debabrota Basu, Odalric-Ambrym Maillard,
- Abstract要約: MED戦略の線形バージョンから着想を得たアルゴリズムであるDri-MEDを紹介する。
Dri-MEDはドリフトや嗜好構造を無視した保守的なベースラインを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 19.395115096998108
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We consider a variant of the linear contextual stochastic multi-armed bandits, where the learner must provide recommendations to a group of users, each having its personalized preference vector, and in the presence of context distributions that are drifting over time. Under practitioner-friendly assumptions, we reduce this setting to linear bandit with stationary mean but heteroskedastic and non-stationary noise. We further study the case when the learner must ensure the mean reward of each decision must exceed that of a baseline strategy $\boldsymbolπ_0$ at each decision step. We introduce Dri-MED, an algorithm inspired from the linear version of the MED strategy, and carefully adapted to handle the non-stationary heteroskedastic noise. We show that the instance-dependent regret scales as $\tilde{\mathcal O}\left(\fracκ{\tildeΔ}d^2(\log(T)\right)$, where $\tildeΔ$ is the constraint-aware sub-optimality gap subject to policy $π_0$, with variance-aware multiplicative term $κ$ that we carefully handle using heteroskedastic regression. We further show Dri-MED enjoys $\tilde{\mathcal{O}}(d)$ expected constraint violations. Our numerical results suggest that Dri-MED significantly outperforms conservative baselines that ignores the drift and preference structure.
- Abstract(参考訳): 線形文脈確率的マルチアームバンディットの変種を考えると、学習者は、それぞれがパーソナライズされた選好ベクトルを持ち、時間とともにドリフトしているコンテキスト分布の存在下で、ユーザのグループにレコメンデーションを提供しなければならない。
実践者フレンドリな仮定の下では、この設定を定常平均の線形バンディットに還元するが、ヘテロスケダティックで非定常雑音を持つ。
さらに、学習者が各決定における平均報酬を基準戦略$\boldsymbolπ_0$を超えなければならない場合についても検討する。
我々は,MED戦略の線形バージョンから着想を得たアルゴリズムであるDri-MEDを導入し,非定常ヘテロスケダスティックノイズの処理に慎重に適応した。
インスタンス依存後悔尺度は $\tilde{\mathcal O}\left(\fracκ{\tildeΔ}d^2(\log(T)\right)$, where $\tildeΔ$ is the constraint-aware sub-optimality gap subject to policy $π_0$, with variance-aware multiplicative term $κ$ that we keep handle using heteroskedastic regression。
さらに、Dri-MEDが$\tilde{\mathcal{O}}(d)$期待される制約違反を楽しむことを示す。
Dri-MEDはドリフトや嗜好構造を無視した保守的なベースラインを著しく上回ることを示す。
関連論文リスト
- Logistic Bandits with $\tilde{O}(\sqrt{dT})$ Regret without Context Diversity Assumptions [1.0098114696565863]
SupSplitLogは、コンテキストの多様性を仮定せずに$tildemathcalO(sqrtdT)$ regretを達成するロジスティックバンディットのための最初のアルゴリズムである。
SupSplitLogは、後悔の上限における次元$d$への依存の観点から、既存のアルゴリズムを厳密に改善する。
論文 参考訳(メタデータ) (2026-04-24T02:21:59Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,このドメイン内のモデルについて考察する。-文脈的デュエルバンディット(contextual dueling bandits)と,正の選好ラベルを相手によって反転させることができる対向フィードバック(reversarial feedback)について考察する。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(RCDB)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Stochastic Linear Bandits Robust to Adversarial Attacks [117.665995707568]
我々はロバスト位相除去アルゴリズムの2つの変種を提供し、その1つは$C$を知っており、もう1つはそうでない。
いずれの変種も、倒壊しない場合には、それぞれ$C = 0$ となり、それぞれ追加の加法項が生じる。
文脈的設定では、単純な欲求的アルゴリズムは、明示的な探索を行わず、C$を知らないにもかかわらず、ほぼ最適加法的後悔項で証明可能な堅牢性を示す。
論文 参考訳(メタデータ) (2020-07-07T09:00:57Z) - Stochastic Bandits with Linear Constraints [69.757694218456]
制約付き文脈線形帯域設定について検討し、エージェントの目標は一連のポリシーを作成することである。
楽観的悲観的線形帯域(OPLB)と呼ばれる,この問題に対する高信頼束縛アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-17T22:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。