論文の概要: Adaptive Weighted Averaging
- arxiv url: http://arxiv.org/abs/2606.12763v1
- Date: Thu, 11 Jun 2026 00:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.507601
- Title: Adaptive Weighted Averaging
- Title(参考訳): Adaptive Weighted Averaging
- Authors: Aditya Bhaskara, Ashok Cutkosky, Ravi Kumar, Manish Purohit,
- Abstract要約: 我々は、$n$未知の値の中で最大の値を選択する問題について研究する。
私たちは、(他のどの戦略にも一様に支配されない)同時に許容できる戦略を設計します。
- 参考スコア(独自算出の注目度): 44.118279431357855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of selecting the largest among $n$ unknown values $x_1,\dots,x_n$ given only a single unbiased estimate $y_i$ for each $x_i$. We design strategies that are simultaneously admissible (not uniformly dominated by any other strategy) and also never worse than a given baseline such as uniform random selection. We provide an application to stochastic optimization, where we obtain online-to-batch conversion bounds with a desirable "no-compromise" guarantee: they are never worse than standard random iterate selection, and yet can be significantly better in benign settings.
- Abstract(参考訳): 我々は、各$x_i$に対して1つの偏りのない見積もりだけを与えられたとき、n$未知の値$x_1,\dots,x_n$の中から最大の値を選択するという問題を研究する。
同時に許容可能な戦略(他の戦略に一様に支配されない)を設計し、また、一様ランダム選択のような与えられたベースラインよりも悪いことはない。
確率的最適化のためのアプリケーションとして,オンラインからバッチへの変換バウンダリを望ましい「非妥協」保証付きで取得する。
関連論文リスト
- Batched Stochastic Matching Bandits [43.651070266360954]
本稿では,MNL選択モデルに基づくマッチングのための新しい帯域幅フレームワークを提案する。
私たちの設定では、一方の$N$エージェントは他方の$K$アームに割り当てられます。
目的は、すべてのエージェントで成功した試合から累積収入を最大化することで、後悔を最小限に抑えることである。
論文 参考訳(メタデータ) (2025-09-04T13:16:32Z) - Stopping Bayesian Optimization with Probabilistic Regret Bounds [1.4141453107129403]
我々は,ある点が与えられた条件を満たす確率に基づいて,事実上の停止規則を基準に置き換えることを検討する。
我々は,モンテカルロの停止規則を,サンプル効率が高く,推定誤差に頑健な方法で評価する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-26T18:34:58Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - Variance-Dependent Regret Bounds for Linear Bandits and Reinforcement
Learning: Adaptivity and Computational Efficiency [90.40062452292091]
本稿では,不整合雑音を持つ線形帯域に対する計算効率のよい最初のアルゴリズムを提案する。
我々のアルゴリズムは未知のノイズの分散に適応し、$tildeO(d sqrtsum_k = 1K sigma_k2 + d)$ regretを達成する。
また、強化学習において、線形混合マルコフ決定過程(MDP)に対する分散適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-21T00:17:24Z) - Estimating Optimal Policy Value in General Linear Contextual Bandits [50.008542459050155]
多くのバンドイット問題において、政策によって達成可能な最大報酬は、前もって不明であることが多い。
我々は,最適政策が学習される前に,サブ線形データ構造における最適政策値を推定する問題を考察する。
V*$で問題依存上界を推定する,より実用的で効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-19T01:09:24Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Rate-adaptive model selection over a collection of black-box contextual
bandit algorithms [0.966840768820136]
文脈的帯域設定におけるモデル選択タスクについて検討する。
我々の提案は、一般的なブラックボックス・コンテクスト・バンディットアルゴリズムの収集に適応する最初のものである。
論文 参考訳(メタデータ) (2020-06-05T18:55:16Z) - Randomized Smoothing of All Shapes and Sizes [29.40896576138737]
最適」ノルムの適切な概念に対して、任意の「ニッチ」ノルムに対する最適な滑らか化はノルムの *Wulff Crystal* によって与えられるレベル集合を持つことを示す。
ここでは、*バナッハ空間コタイプ*の理論を通して、現在のランダム化平滑化技術に基本的な限界を示す。
論文 参考訳(メタデータ) (2020-02-19T11:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。