論文の概要: Cost-Optimal LLM Routing with Limited User Feedback under User Satisfaction Guarantees
- arxiv url: http://arxiv.org/abs/2606.19376v1
- Date: Fri, 12 Jun 2026 08:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.417214
- Title: Cost-Optimal LLM Routing with Limited User Feedback under User Satisfaction Guarantees
- Title(参考訳): ユーザ満足度保証の下でのユーザフィードバックを限定したコスト最適LCMルーティング
- Authors: Herbert Woisetschläger, Arastun Mammadli, Ryan Zhang, Shiqiang Wang,
- Abstract要約: SLAは、生産システムで利用可能な、まばらで一方的なユーザフィードバックからコスト最適化ポリシーを学習するオンラインルーティングアルゴリズムです。
実験の結果、SLAはベンチマークごとのチューニングを必要とせずにSLAの制約を満たすことが示され、既存のベースラインよりも2.2倍のコストが削減された。
- 参考スコア(独自算出の注目度): 11.389402303822635
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Inference costs for large language model (LLM) applications are rapidly growing, driven by surging demand and rising infrastructure cost. Users expect high-quality responses, and in commercial settings this is formally codified in Service Level Agreements (SLAs), creating a fundamental tension between cost and quality. Recent progress on cost-aware LLM request routing has shown potential to resolve this tension, but existing approaches rely on complete feedback signals, offline training, extensive per-workload tuning, and most lack SLA guarantees or inference-time adaptivity. We introduce SLARouter, an online routing algorithm that learns a cost-optimal policy from the sparse, one-sided user feedback available in production systems. SLARouter provides theoretical guarantees for both cost optimality and strict SLA compliance. Experiments across a wide range of LLM benchmarks show that SLARouter satisfies SLA constraints without the need for per-benchmark tuning, reducing operating cost by up to 2.2x over existing baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)アプリケーションの推論コストは、需要の急増とインフラコストの上昇によって急速に増加しています。
ユーザは高品質なレスポンスを期待しており、商業的な設定では、これを正式にSLA(Service Level Agreements)として定式化することで、コストと品質の基本的な緊張関係を生み出します。
コストを意識したLCM要求ルーティングの最近の進歩は、この緊張を解消する可能性を示しているが、既存のアプローチでは、完全なフィードバック信号、オフライントレーニング、広範囲なワークロードチューニング、SLA保証や推論時適応性に頼っている。
我々はSLARouterを紹介した。SLARouterは、プロダクションシステムで利用可能な、まばらで一方的なユーザーフィードバックからコスト最適化ポリシーを学習するオンラインルーティングアルゴリズムである。
SLARouterは、コスト最適性と厳格なSLAコンプライアンスの両方に関する理論的保証を提供する。
LLMベンチマークでの実験では、SLARouterはベンチマークごとのチューニングを必要とせずにSLAの制約を満足し、既存のベースラインよりも最大2.2倍の運用コストを削減している。
関連論文リスト
- $π$-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs [64.60188746073904]
フローベース視覚言語行動モデルは、具体的制御において優れるが、多段階サンプリングにおいて難易度に悩まされる。
textbftextit$boldsymbol$-StepNFT (Step-wise Negative-aware Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2026-03-02T17:04:49Z) - Conformal Constrained Policy Optimization for Cost-Effective LLM Agents [27.37909142846675]
大規模言語モデル(LLM)は最近、AI問題の解決に向けて大きな進歩を遂げた。
本稿では,複数のLLMモデルとコスト/精度のトレードオフをエージェント方式で組み合わせた新しい戦略を提案する。
当社のアプローチは,信頼性を維持しつつ,よりコスト効率のよいLCMエージェントをデプロイするための,原則的かつ実用的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-14T19:39:28Z) - Dynamic Speculative Agent Planning [57.630218933994534]
大規模な言語モデルベースのエージェントは、遅延の禁止と推論コストのために、重要なデプロイメント課題に直面している。
本稿では,オンライン強化学習フレームワークである動的投機計画(Dynamic Speculative Planning, DSP)を紹介する。
2つの標準エージェントベンチマークの実験では、DSPは高速加速法に匹敵する効率を達成し、総コストを30%削減し、不要コストを60%まで削減している。
論文 参考訳(メタデータ) (2025-09-02T03:34:36Z) - Aligning LLMs on a Budget: Inference-Time Alignment with Heuristic Reward Models [23.37504394417425]
HIA(Heuristic-Guided Inference-time Alignment)は,軽量プロンプトを用いたチューニング不要でブラックボックス互換のアプローチである。
HIAは1つまたは2つの応答クエリの少ない低推論予算下で有効であることが判明した。
論文 参考訳(メタデータ) (2025-08-07T08:54:27Z) - MESS+: Dynamically Learned Inference-Time LLM Routing in Model Zoos with Service Level Guarantees [17.478510146434218]
オープンウェイトな大規模言語モデル(LLM)動物園は、多くの高品質なモデルへのアクセスを提供する。
ほとんどのユーザーは、モデル技術に気を使わずに、事実的正確で安全で満足な応答を欲しがっている。
コスト最適LCM要求ルーティングのための最適化アルゴリズムであるMESS+を紹介する。
論文 参考訳(メタデータ) (2025-05-26T13:11:08Z) - MixLLM: Dynamic Routing in Mixed Large Language Models [57.309520357563215]
大規模言語モデル(LLM)は、最近、人工知能の可能性を秘めている。
問合せ-LLM代入のための動的コンテキスト帯域ベースのルーティングシステムであるMixLLMを開発した。
論文 参考訳(メタデータ) (2025-02-09T02:26:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。