論文の概要: Statistical Inference for Misspecified Contextual Bandits
- arxiv url: http://arxiv.org/abs/2606.22639v1
- Date: Sun, 21 Jun 2026 18:57:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:12:41.579928
- Title: Statistical Inference for Misspecified Contextual Bandits
- Title(参考訳): 相違した文脈帯域の統計的推測
- Authors: Yongyi Guo, Ziping Xu,
- Abstract要約: 標準アルゴリズムは、不特定な作業モデルの下では、安定化に失敗する可能性がある。
広い範囲のモーメント対象に対する逆確率重み付きZ推定フレームワークを開発する。
いくつかの政策クラスに対して、スケールされた逆正則収束のための十分な条件を確立する。
- 参考スコア(独自算出の注目度): 6.178061357164435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual bandit algorithms have transformed modern experimentation by enabling real-time adaptation for personalized treatment. Yet these advantages create challenges for statistical inference due to adaptivity. We study inference with contextual-bandit data without assuming a well-specified outcome model. In this setting, we show a previously overlooked issue: standard algorithms such as LinUCB may fail to stabilize under misspecified working models, leading to non-Gaussian estimator behavior and invalid inference. This issue is practically important, as misspecified working models -- such as approximations of complex dynamical systems -- are often employed by online agents in real-world adaptive experiments to balance reward, computational tractability, and robustness. We develop an inverse-probability-weighted Z-estimation framework for a broad class of marginal moment targets, including projection parameters, structural parameters with noisy contexts, and off-policy values. We identify a stability condition tailored to this framework, scaled inverse-propensity convergence, under which the IPW-Z estimator is consistent and asymptotically normal with a consistent sandwich variance estimator. We further establish sufficient conditions for scaled inverse-propensity convergence for several policy classes, including multi-armed bandit algorithms and smooth contextual allocation policies. Simulations and a HeartSteps V1 real-data-calibrated application show reliable coverage and competitive performance across multiple targets. Overall, our results highlight the importance of stability-aware adaptive design for valid post-experiment inference.
- Abstract(参考訳): コンテキストバンディットアルゴリズムは、パーソナライズされた治療のためのリアルタイム適応を可能にすることで、近代的な実験を変革した。
しかし、これらの利点は適応性による統計的推測の課題を生み出す。
適切な結果モデルを仮定することなく,文脈帯域データによる推論について検討する。
この設定では、LinUCBのような標準アルゴリズムは、不特定作業モデルの下では安定化せず、非ガウス的推定器の挙動と不正推論をもたらす可能性がある。
この問題は、複雑な力学系の近似のような不特定な作業モデルが、報酬、計算的トラクタビリティ、堅牢性のバランスをとるために、現実の適応実験においてオンラインエージェントによってしばしば使用されるため、事実上重要である。
本研究では,プロジェクションパラメータ,雑音のある構造パラメータ,政治外の値を含む,幅広い範囲のモーメント対象に対する逆確率重み付きZ推定フレームワークを開発する。
我々は,IPW-Z推定器が一貫したサンドイッチ分散推定器と漸近的に正常である場合,この枠組みに適合した安定性条件,スケールされた逆相関収束を同定する。
我々はさらに、マルチアームバンディットアルゴリズムやスムーズなコンテキストアロケーションポリシを含む、いくつかのポリシークラスに対して、スケールされた逆正則収束のための十分な条件を確立する。
シミュレーションとHeartSteps V1リアルタイムデータキャリブレーションアプリケーションは、複数のターゲットに対して信頼性のあるカバレッジと競合性能を示している。
以上の結果から,実験後推論における安定性を考慮した適応設計の重要性が示唆された。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Statistical Inference for Misspecified Contextual Bandits [6.178061357164435]
コンテキストバンディットアルゴリズムは、パーソナライズされた治療のためのリアルタイム適応を可能にすることで、近代的な実験を変革した。
しかし、これらの利点は適応性による統計的推測の課題を生み出す。
収束は適応実験の再現性とオンラインアルゴリズムの安定性を保証する。
論文 参考訳(メタデータ) (2025-09-08T02:19:37Z) - Locally Adaptive Conformal Inference for Operator Models [5.78532405664684]
演算子モデルに対して関数値の局所適応予測セットを生成するための分散フリーフレームワークであるLocal Sliced Conformal Inference (LSCI)を紹介する。
我々は有限サンプルの有効性を証明し、局所交換性の下でのカバレッジギャップにデータ依存の上限を導出する。
偏りのある予測や分布外雑音に対する空間を実証的に実証する。
論文 参考訳(メタデータ) (2025-07-28T16:37:56Z) - Noise-Adaptive Conformal Classification with Marginal Coverage [53.74125453366155]
本稿では,ランダムラベルノイズによる交換性からの偏差を効率的に処理できる適応型共形推論手法を提案する。
本手法は,合成および実データに対して,その有効性を示す広範囲な数値実験により検証する。
論文 参考訳(メタデータ) (2025-01-29T23:55:23Z) - Adaptive Conformal Inference by Betting [51.272991377903274]
データ生成プロセスについて仮定することなく適応型共形推論の問題を考察する。
適応型共形推論のための既存のアプローチは、オンライン勾配勾配の変種を用いたピンボール損失の最適化に基づいている。
本稿では,パラメータフリーなオンライン凸最適化手法を利用した適応型共形推論手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:42:08Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。