論文の概要: Flow-Corrected Thompson Sampling for Non-Stationary Contextual Bandits
- arxiv url: http://arxiv.org/abs/2606.23933v1
- Date: Mon, 22 Jun 2026 20:52:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.687021
- Title: Flow-Corrected Thompson Sampling for Non-Stationary Contextual Bandits
- Title(参考訳): 非定常帯域に対するフロー補正トンプソンサンプリング
- Authors: AmirHossein Naghdi, Ali Baheri,
- Abstract要約: 報酬モデルが時間とともにドリフトする非定常線形文脈帯域について検討する。
本研究では,過去の報酬を現在まで輸送することで,経験を再利用するベイズ的手法であるフロー補正トンプソンサンプリング(fcTS)を提案する。
- 参考スコア(独自算出の注目度): 3.2848713528308817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study non-stationary linear contextual bandits where the reward model drifts over time, rendering classical contextual bandit algorithms brittle because historical data becomes systematically biased. We propose Flow-Corrected Thompson Sampling (fcTS), a Bayesian method that reuses experience by transporting past rewards to the present using an explicit drift model and incorporating each transported observation with a confidence weight that reflects transport reliability. This yields a unified template that specializes in (i) linear parameter drift via online slope estimation and reward correction, (ii) periodic variation via phase-aware reuse across cycles, and (iii) recurring regime switches via changepoint detection and regime-specific posterior memory. The resulting posterior updates remain closed-form under a linear Gaussian model and can be implemented efficiently with truncated, incrementally updated sufficient statistics. Across five controlled case studies and a semi-synthetic portfolio-selection benchmark with multiple overlapping non-stationarities, fcTS outperforms standard forgetting-based baselines (discounting, sliding windows, and periodic restarts), with the largest gains in settings exhibiting recurring temporal structure. These results demonstrate that when non-stationarity is structured, correcting and reweighting historical observations can be substantially more sample-efficient than uniformly discarding them.
- Abstract(参考訳): 我々は、報酬モデルが時間とともにドリフトする非定常線形文脈帯域幅について検討し、歴史的データが体系的に偏っているため、古典的文脈帯域幅アルゴリズムは不安定である。
本研究では,過去の報酬を明示的なドリフトモデルを用いて現在まで輸送し,輸送信頼性を反映した信頼度重み付きで各搬送された観測を組み込むことにより,過去の報酬を再利用するベイズ的手法であるフロー補正トンプソンサンプリング(fcTS)を提案する。
これにより、特別な統合テンプレートが得られます。
一 オンライン傾斜推定及び報酬補正による線形パラメータドリフト
(二 周期にわたる位相認識の再利用による周期的変動
三 チェンジポイント検出及びレギュラー特異的後記憶を介してレギュラースイッチを繰り返す。
結果として得られた後続の更新は、線形ガウスモデルの下で閉形式のままであり、切り詰められた、漸進的に更新された十分な統計値で効率的に実装することができる。
5つの制御されたケーススタディと、複数の重なり合う非定常性を持つ半合成ポートフォリオ選択のベンチマークにおいて、fcTSは標準忘れベースのベースライン(カウント、スライディングウインドウ、周期的再起動)を上回り、時間的構造が繰り返される設定において最大の利益を上げている。
これらの結果は、非定常性が構造化されている場合、歴史的観測の修正と再重み付けは、それらを一様に破棄するよりもはるかに標本効率が良いことを示した。
関連論文リスト
- Simple Approximation and Derivative Free Inference-Time Scaling for Diffusion Models via Sequential Monte Carlo on Path Measures [13.41132148962756]
textttURGEはデリバティブフリーな推論時間スケーリングアルゴリズムで、測定値の変更によって経路的に重要な再重み付けを行う。
我々はパスワイドSMCとパーティクルワイドSMCの等価性を確立する。
論文 参考訳(メタデータ) (2026-05-18T04:45:33Z) - RAVEN: Real-time Autoregressive Video Extrapolation with Consistency-model GRPO [53.38929612273108]
因果自己回帰ビデオ拡散モデルは、以前生成されたコンテンツから将来のチャンクを外挿することでリアルタイムストリーミング生成をサポートする。
本稿では,リアルタイム自動回帰ビデオ補間ネットワーク(RAVEN)を紹介した。これは,各自己ロールアウトを,クリーンな歴史的エンドポイントのインターリーブシーケンスに再パッケージするトレーニングタイムテストフレームワークである。
論文 参考訳(メタデータ) (2026-05-14T17:59:30Z) - Temporal Structure Matters for Efficient Test-Time Adaptation in Wearable Human Activity Recognition [0.20391237204597365]
テスト時間適応(TTA)は、実世界のクロスユーザー分散シフト下での性能低下を緩和する。
既存の手法は主に視覚タスクから仮定を継承し、WHARストリームに固有のウィンドウ間時間構造を過小評価する。
本稿では,WHARのための軽量かつバックプロパゲーションフリーなTTAフレームワークであるSIGHTを提案する。
論文 参考訳(メタデータ) (2026-05-06T08:06:27Z) - Invariance-Based Dynamic Regret Minimization [8.349786817840858]
我々は、時間とともに、リニアパラメータが報酬とコンテキストを接続する非定常線形帯域を考える。
我々は、報酬モデルが定常成分と非定常成分に分解されると仮定して、変化に適応しつつ、歴史的データを活用することを提案する。
論文 参考訳(メタデータ) (2026-03-04T08:47:02Z) - Temporal Pair Consistency for Variance-Reduced Flow Matching [13.328987133593154]
TPC(Temporal Pair Consistency)は、同じ確率経路に沿ってペア化された時間ステップで速度予測を結合する軽量な分散還元原理である。
フローマッチング内で確立されたTPCは、複数の解像度でCIFAR-10とImageNetのサンプル品質と効率を改善する。
論文 参考訳(メタデータ) (2026-02-04T00:05:21Z) - Kalman Filter for Online Classification of Non-Stationary Data [101.26838049872651]
オンライン連続学習(OCL)では、学習システムはデータのストリームを受け取り、予測とトレーニングの手順を順次実行する。
本稿では,線形予測量に対するニューラル表現と状態空間モデルを用いた確率ベイズオンライン学習モデルを提案する。
多クラス分類の実験では、モデルの予測能力と非定常性を捉える柔軟性を示す。
論文 参考訳(メタデータ) (2023-06-14T11:41:42Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [56.48290708901531]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。