論文の概要: Online Pandora's Box for Contextual LLM Cascading
- arxiv url: http://arxiv.org/abs/2606.07392v1
- Date: Fri, 05 Jun 2026 15:29:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.827419
- Title: Online Pandora's Box for Contextual LLM Cascading
- Title(参考訳): コンテキストLLMカスケーディングのためのオンラインPandoraのボックス
- Authors: Alexandre Belloni, Yan Chen, Yehua Wei,
- Abstract要約: LLM API を適応的にクエリし,選択するためのオンラインコンテキスト型 Pandora の Box モデルを提案する。
古典的なワイツマンの政策によって誘導される文脈予約指標関数にパラメトリック構造を課す。
正規性条件の下では、結果として得られるポリシーが次元依存の$widetilde O(sqrt T)$ cumulative regret を$T$周期の地平線上で達成することを証明する。
- 参考スコア(独自算出の注目度): 44.749686375953395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Motivated by Large Language Model (LLM) cascading, we propose an online contextual Pandora's Box model for adaptively querying and selecting LLM APIs. In each period, a decision-maker observes a request context and faces a two-phase decision problem. In the query phase, the decision-maker sequentially queries APIs, where each query reveals a generated output and the decision-maker incurs an (output-dependent) cost. In the selection phase, the decision-maker selects one of the generated outputs to deploy and observes only the downstream reward of the deployed output. This output-mediated feedback structure differs from classical online contextual Pandora's Box models, in which opening a box directly reveals its reward. Rather than estimating the full conditional output and cost distributions of each API, we directly model the reservation index and develop a learning approach for the query phase. Specifically, we impose a parametric structure on the contextual reservation index functions induced by the classical Weitzman's policy. Our policy combines generalized method of moments (GMM) type estimation of these reservation indices with UCB-style confidence bounds for both these indices and the shared output-level reward evaluator. Under regularity conditions, we prove that the resulting policy achieves dimension-dependent $\widetilde O(\sqrt T)$ cumulative regret over a horizon of $T$ periods.
- Abstract(参考訳): 本稿では,Large Language Model (LLM) のカスケーディングにより,LLM API を適応的にクエリし選択するためのオンラインコンテキスト型 Pandora の Box モデルを提案する。
各期間において、意思決定者は要求コンテキストを観察し、二相決定問題に直面する。
クエリフェーズでは、デザイナがAPIをシーケンシャルにクエリし、各クエリが生成された出力を明らかにし、デザイナが(アウトプットに依存した)コストを発生させる。
選択フェーズでは、決定者は生成された出力のうちの1つを選択してデプロイし、デプロイされた出力の下流の報酬のみを観察する。
この出力によるフィードバック構造は、古典的なオンラインコンテクストのPandoraのBoxモデルとは異なる。
各APIの条件付き出力とコスト分布を推定する代わりに、予約インデックスを直接モデル化し、クエリフェーズの学習アプローチを開発する。
具体的には、古典的なワイツマンのポリシーによって誘導される文脈予約インデックス関数にパラメトリック構造を課す。
我々の政策は、これらの予約指標の一般化されたモーメント推定法(GMM)と、これらの指標と共有出力レベルの報酬評価器の両方に対するUTBスタイルの信頼境界を組み合わせたものである。
正規性条件の下では、結果として得られるポリシーが次元依存の$\widetilde O(\sqrt T)$ cumulative regret を$T$周期の地平線上で達成することを証明する。
関連論文リスト
- A Methodology for Selecting and Composing Runtime Architecture Patterns for Production LLM Agents [0.0]
本稿では, 境界決定論的境界(SDB): 提案者, 検証者, コミットステップ, 拒否信号の4部契約について述べる。
我々は、SDBは本番エージェントランタイムの負荷分散プリミティブであると主張している。
本稿では,会話エージェント,自律エージェント,長期エージェント間で異なるSDBを構成する6つの実行パターンのカタログを示す。
論文 参考訳(メタデータ) (2026-05-19T17:54:21Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Learning to Route and Schedule LLMs from User Retrials via Contextual Queueing Bandits [1.3982866095610877]
我々は,ユーザの再審行動から推定される暗黙のフィードバックを活用する共同ルーティングとスケジューリングアルゴリズムを開発した。
我々は、ACQBがルーティングに対して$widetildemathcalO(sqrtt)$の累積後悔と、大きな$t$に対して$widetildemathcalO(t-1/4)$のキュー長後悔を同時に達成していることを示す。
論文 参考訳(メタデータ) (2026-02-02T13:01:41Z) - Optimal Budgeted Adaptation of Large Language Models [8.207283283207138]
ラベル付きデータの可用性と下流の精度のトレードオフは、大きな言語モデルにおいて依然として中心的な課題である。
そこで本稿では,LLM をコンテキスト型 Stackelberg ゲームとしてキャストすることで,Emphbudget-aware による微調整を指導するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T01:08:15Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - DISCO: Diversifying Sample Condensation for Efficient Model Evaluation [59.01400190971061]
コスト評価は傾向を低下させ、イノベーションのサイクルを遅くし、環境への影響を悪化させる。
モデル応答の多様性を最大化するサンプルを選択することが重要となる。
我々のメソッドである$textbfDiversifying Sample Condensation (DISCO)$は、最も大きなモデル不一致を持つトップkサンプルを選択します。
論文 参考訳(メタデータ) (2025-10-09T08:53:59Z) - Verifying Memoryless Sequential Decision-making of Large Language Models [4.570003973862485]
本稿では,大規模言語モデル(LLM)に基づく政策を逐次意思決定タスクにおいて厳密かつ自動検証するツールを提案する。
逐次意思決定タスクを表すマルコフ決定プロセス(MDP)、LCMポリシー、およびPCTL式として表現される安全要件を考慮し、本手法はMDPの到達可能な部分のみを段階的に構成する。
結果の形式モデルがStormでチェックされ、ポリシーが指定された安全資産を満たすかどうかが決定される。
論文 参考訳(メタデータ) (2025-10-08T08:31:48Z) - Reinforcement Learning in MDPs with Information-Ordered Policies [7.881781003954483]
無限水平平均コストマルコフ決定過程に対するエポック型強化学習アルゴリズムを提案する。
我々は,このアルゴリズムが,部分順序の幅を$w$とする$O(sqrtw log(|Theta|) T)$の残差を達成していることを示す。
本稿では、在庫管理やキューシステムなど、オペレーション研究におけるこれらの部分的な注文の適用性について説明する。
論文 参考訳(メタデータ) (2025-08-05T20:43:23Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。