論文の概要: Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts
- arxiv url: http://arxiv.org/abs/2606.14929v1
- Date: Fri, 12 Jun 2026 20:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.461839
- Title: Policy Regret for Embedding Model Routing: Contextual Bandits with Low-Rank Experts
- Title(参考訳): モデルルーティングを組み込むためのポリシーレグレット:低レベル専門家とのコンテキスト帯域
- Authors: Yan Dai, Negin Golrezaei, Patrick Jaillet,
- Abstract要約: 低ランクの専門家による逆コンテキスト線形帯域として埋め込みモデルルーティングを形式化する。
我々はHypentropy Policy Gradient (HPG)と呼ばれるポリシー勾配アルゴリズムを提案する。
HPGは不完全な情報の下で未知の低ランク構造に適応する。
- 参考スコア(独自算出の注目度): 27.63206843482034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern recommendation systems increasingly rely on dynamically routing diverse queries to multiple embedding models. Despite its practical significance, this problem remains poorly understood under realistic conditions like adversarial queries, bandit feedback, and limited observability of models. We formalize embedding model routing as an adversarial contextual linear bandit with low-rank experts, where contexts are queries, actions are items, and experts are the embedding models working on low-rank latent representation spaces. We first establish that standard regret notions suffer from structural misspecification or statistical intractability, and we identify a log-quadratic policy class that is expressive enough to capture query-dependent model routing, yet structured enough to allow efficient online learning. Second, we propose a policy gradient algorithm called Hypentropy Policy Gradient (HPG). It provably adapts to the unknown low-rank structure under incomplete information and attains $\tilde{\mathcal O}(s\sqrt{M T})$ linearized policy regret -- where $s, M$, and $T$ are the intrinsic rank of the experts, the number of models, and the number of rounds -- thus avoiding a curse of dimensionality. Finally, we also provide an computationally efficient and parameter-free implementation of HPG.
- Abstract(参考訳): 現代のレコメンデーションシステムは、多様なクエリを複数の埋め込みモデルに動的にルーティングすることにますます依存している。
現実的な重要性にもかかわらず、この問題は敵のクエリ、帯域幅のフィードバック、モデルの観測可能性の制限といった現実的な条件下では理解されていない。
埋め込みモデルルーティングは、コンテキストがクエリ、アクションがアイテム、エキスパートが低ランクの潜在表現空間で作業する埋め込みモデルである、低ランクのエキスパートによる逆コンテキスト線形帯域として形式化する。
まず、構造的不特定性や統計的難読性に苦しむ標準後悔の概念を確定し、クエリ依存のモデルルーティングを捉えるのに十分な表現力を持つ対数次ポリシークラスを特定し、効率的なオンライン学習を可能にするのに十分な構造を持つ。
次に,Hypentropy Policy Gradient (HPG) と呼ばれるポリシー勾配アルゴリズムを提案する。
不完全な情報の下で未知の低ランク構造に確実に適応し、$\tilde{\mathcal O}(s\sqrt{M T})$ linearized policy regret -- ここで、$s, M$, $T$は専門家の本質的なランク、モデルの数、ラウンドの回数であり、従って次元の呪いを避ける。
最後に,HPGの計算効率が高く,パラメータフリーな実装も提供する。
関連論文リスト
- Auto-Rubric as Reward: From Implicit Preferences to Explicit Multimodal Generative Criteria [17.272139541614383]
Auto-Rubric as Reward (ARR)は、暗黙の重み付け最適化から明示的な基準ベースの分解まで、報酬モデリングを再構成するフレームワークである。
ARRはVLMの選好知識をプロンプト固有の勾配として外部化し、全体論的意図を独立に検証可能な品質次元に変換する。
ARR-RPOは、テキスト・ツー・イメージ生成と画像編集のベンチマークにおいて、ペアワイズ報酬モデルとVLM判事より優れている。
論文 参考訳(メタデータ) (2026-05-08T18:05:27Z) - POETS: Uncertainty-Aware LLM Optimization via Compute-Efficient Policy Ensembles [35.88280776565273]
POETSは不確実性定量化と政策最適化を橋渡しする新しいフレームワークである。
我々のアプローチは、KL(Kulback-Leibler)正規化で訓練されたポリシーが、基礎となる報酬関数を暗黙的にエンコードするという知見に基づいている。
我々はPOETSが様々な科学的発見領域にまたがって最先端のサンプル効率を実現することを実証する。
論文 参考訳(メタデータ) (2026-05-08T14:16:32Z) - Spatial Supply Repositioning with Censored Demand Data [10.797160099834306]
我々は、一方通行のオンデマンド車両共有サービスによるネットワーク在庫システムについて検討する。
このような一般的な在庫ネットワークにおいて最適なポリシーを見つけることは解析的にも計算的にも困難である。
我々の研究は、共有モビリティビジネスの生存性における在庫管理の重要性を強調している。
論文 参考訳(メタデータ) (2025-01-31T15:16:02Z) - The Sample Complexity of Online Reinforcement Learning: A Multi-model Perspective [55.15192437680943]
連続状態と行動空間を持つ非線形力学系の一般設定におけるオンライン強化学習のサンプル複雑性について検討した。
我々のアルゴリズムは、$mathcalO(N epsilon2 + Mathrmln(m(epsilon)/epsilon2)$のポリシーを後悔する。
力学がコンパクトで実数値のパラメータ集合によってパラメータ化される特別な場合、$mathcalO(sqrt)のポリシー後悔を証明する。
論文 参考訳(メタデータ) (2025-01-27T10:01:28Z) - Online Policy Learning and Inference by Matrix Completion [12.527541242185404]
我々は、集団的嗜好に基づく意思決定のための協調フィルタリングアプローチを採っている。
本稿では,意思決定のための$varepsilon$-greedyポリシーと,帯域パラメータ推定のためのオンライン降下アルゴリズムを組み合わせた政策学習手法を提案する。
推論のために,逆ポリシー重み付けに基づくオンラインデバイアス法を開発し,その正規性を確立する。
論文 参考訳(メタデータ) (2024-04-26T13:19:27Z) - Bad Values but Good Behavior: Learning Highly Misspecified Bandits and
MDPs [16.777565006843012]
パラメトリックな特徴に基づく報酬モデルが,帯域幅やマルコフ決定プロセス(MDP)などの意思決定設定において,さまざまなアルゴリズムによって採用されている。
我々は、$epsilon$-greedyやLinUCB、それに適合したQラーニングといった基本的なアルゴリズムが、非常に不明瞭なモデルの下で、最適ポリシーを確実に学習していることを示します。
これは、例えば、時間とともに線形にスケールする後悔の束縛を示す不特定な包帯に対する既存の最悪の結果とは対照的であり、不特定に頑丈な非自明に大規模な包帯例が存在することを示している。
論文 参考訳(メタデータ) (2023-10-13T18:53:30Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。