論文の概要: Multi-Armed Bandits with Arriving Arms: Sequential Screening, Dynamic Regret, and Sublinear Guarantees
- arxiv url: http://arxiv.org/abs/2606.09002v1
- Date: Mon, 08 Jun 2026 03:58:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.69025
- Title: Multi-Armed Bandits with Arriving Arms: Sequential Screening, Dynamic Regret, and Sublinear Guarantees
- Title(参考訳): 腕を持つ多関節バンド:シークエンシャルスクリーニング、ダイナミックレグレト、サブリニア保証
- Authors: Deqi Zheng, Xiaoyang Xu, Yuhong Yang,
- Abstract要約: 利用可能なアームの集合が時間とともに拡大する多腕バンディット問題について検討する。
この設定は、進行中の研究中に新しい作用や治療が利用可能になると、連続的な実験で生じる。
代わりに、現在利用可能な最高のアームに対する性能を評価し、到着アーム環境に対する動的レグレット基準を導いた。
- 参考スコア(独自算出の注目度): 4.584469145682237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a stochastic multi-armed bandit problem in which the set of available arms expands over time. This setting arises in sequential experimentation when new actions or treatments become available during an ongoing study, making regret against a single best arm in hindsight inappropriate. We instead evaluate performance relative to the best arm currently available, leading to a dynamic-regret criterion for arriving-arm environments. To address the resulting challenges of arrival information discrepancy (AID) and a drifting benchmark (DB), we propose UCB for Arriving Arms (UCB-AA), an elimination-based procedure with an aiding preliminary screening step for newly arrived arms before full competition with incumbent arms. We show that UCB-AA attains regret bounds that depend explicitly on the arrival process, achieves sublinear dynamic regret under regularity conditions on gap evolution, and admits an online extension for unknown horizons. Simulation results show that UCB-AA reduces wasted pulls and maintains a smaller active arm set while preserving competitive regret performance.
- Abstract(参考訳): 利用可能なアームの集合が時間とともに拡大する確率的マルチアームバンディット問題について検討する。
この設定は、進行中の研究中に新しい行動や治療が利用可能になったときに、連続的な実験で起こり、後見が不適切である1つの最高の腕に対して後悔する。
代わりに、現在利用可能な最高のアームに対する性能を評価し、到着アーム環境に対する動的レグレット基準を導いた。
到着情報不一致(AID)とドリフトベンチマーク(DB)の結果として生じる課題に対処するため,既存アームとの完全な競合前において,新たに到着したアームの予備スクリーニングを補助する除去ベースの手順であるUCB-AA(Arriving Arms)を提案する。
UCB-AAは、到着過程に明示的に依存する後悔の限界を達成し、ギャップ進化の規則性条件下でのサブリニアな後悔を達成し、未知の地平線に対するオンライン拡張を認めた。
シミュレーションの結果, UCB-AAは, 無駄なプルを低減し, より小さなアクティブアームセットを維持しながら, 競合的後悔性能を維持していることがわかった。
関連論文リスト
- Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Multi-Armed Bandits with Abstention [62.749500564313834]
本稿では, 新たな戦略要素である禁忌を取り入れた, 正準多重武装バンディット問題の拡張を提案する。
この強化されたフレームワークでは、エージェントは各タイムステップでアームを選択することだけでなく、観察する前に即時報酬を受け付けないオプションも備えている。
論文 参考訳(メタデータ) (2024-02-23T06:27:12Z) - Non-Stationary Bandits with Auto-Regressive Temporal Dependency [14.093856726745662]
本稿では,自己回帰(AR)報酬構造を通じて実世界の力学の時間構造をキャプチャする,新しい非定常MABフレームワークを提案する。
i) 時間的依存を利用して探索と利用を動的にバランスさせるのに適した変更機構と, (ii) 時代遅れの情報を捨てるように設計された再起動機構の2つの主要なメカニズムを統合するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-28T20:02:21Z) - Best Arm Identification in Restless Markov Multi-Armed Bandits [85.55466536537293]
マルチアームバンディット環境における最適な腕を特定することの問題点について検討する。
決定エンティティは、上限誤差確率を条件として、ベストアームのインデックスをできるだけ早く見つけることを希望する。
このポリシーは、$R$に依存する上限を達成し、$Rtoinfty$として単調に増加しないことを示す。
論文 参考訳(メタデータ) (2022-03-29T04:58:04Z) - Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。
本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文 参考訳(メタデータ) (2021-12-08T02:20:18Z) - The Countable-armed Bandit with Vanishing Arms [8.099977107670918]
我々は、数え切れないほど多くの腕を有限個の「型」に分割したバンドイット問題を考える。
非定常分布は、腕の個体群における各腕型の相対的な存在量を支配しており、いわゆる「腕貯水池」である。
論文 参考訳(メタデータ) (2021-10-23T02:47:55Z) - Online Model Selection: a Rested Bandit Formulation [49.69377391589057]
静止したバンディット設定における最善のアーム識別問題を紹介し,解析する。
我々は、この問題の後悔の新しい概念を定義し、ゲームの終わりに最小の期待損失を持つ腕を常に再生するポリシーと比較します。
最近のバンディット文献における既知のモデル選択の試みとは異なり、アルゴリズムは問題の特定の構造を利用して、予想される損失関数の未知のパラメータを学習する。
論文 参考訳(メタデータ) (2020-12-07T08:23:08Z) - Restless-UCB, an Efficient and Low-complexity Algorithm for Online
Restless Bandits [61.490254407420906]
我々は、各腕の状態がマルコフ連鎖に従って進化するオンラインレス・バンディット問題について研究する。
本研究では,探索研究の枠組みに従う学習方針であるReestless-UCBを提案する。
論文 参考訳(メタデータ) (2020-11-05T05:16:04Z) - A Farewell to Arms: Sequential Reward Maximization on a Budget with a
Giving Up Option [5.1629297054995265]
エージェントが一度にひとつのアクションを採り、各アクションが時間的範囲を持つような、シーケンシャルな意思決定問題を考える。
我々は、対数的、問題依存的後悔境界を確立する上で、高い信頼度に基づくアルゴリズム(WAIT-UCB)を導入する。
論文 参考訳(メタデータ) (2020-03-06T22:16:20Z) - Ballooning Multi-Armed Bandits [12.205797997133397]
バルーン式マルチアーマッドバンド(BL-MAB)について紹介する。
BL-MABでは、利用可能なアームのセットは時間とともに成長する。
ベストアームが任意のタイミングで到着する確率が等しく高い場合、サブリニアな後悔は達成できないことを示す。
論文 参考訳(メタデータ) (2020-01-24T04:35:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。