論文の概要: RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing
- arxiv url: http://arxiv.org/abs/2606.18774v2
- Date: Fri, 19 Jun 2026 09:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-23 13:41:30.932218
- Title: RouteJudge: An Open Platform for Reproducible and Preference-Aware LLM Routing
- Title(参考訳): RouteJudge: 再現性と優先性に配慮したLLMルーティングのためのオープンプラットフォーム
- Authors: Guannan Lai, Haoran Hu, Han-Jia Ye,
- Abstract要約: RouteJudgeは、LLMルーティングシステムのためのオンラインのペアワイズ評価フレームワークである。
複数のルーティング戦略は独立して、同じモデルプールと予算制約の下でモデルモデルを推奨します。
結果のユーザの好みは、比較されたレスポンスの背後にあるルーティング戦略に起因している。
- 参考スコア(独自算出の注目度): 41.435534676485936
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present RouteJudge, an online pairwise preference evaluation framework for LLM routing systems, with a public platform available at https://routejudge.cn. Different from model-level response evaluation, RouteJudge focuses on router-level decision quality. For each user query, multiple routing strategies independently recommend candidate models under the same model pool and budget constraints. The selected model responses are then presented to users through anonymous pairwise comparisons, and the resulting user preferences are attributed back to the routing strategies behind the compared responses. Each evaluation record stores the query, routing decisions, model responses, preference labels, cost, latency, and task metadata, enabling preference-aware, cost-aware, and task-conditioned analysis of LLM routers. To support the continuous expansion of routing methods in RouteJudge, we further release ORBIT (Optimal Routing and Budgeted Inference Toolbox), a modular and extensible toolbox that standardizes the end-to-end workflow of LLM routing. ORBIT provides unified interfaces for benchmark loading, query representation, router implementation, budget-aware evaluation, and method comparison, allowing researchers to develop and evaluate routing algorithms under consistent protocols. It also serves as the submission and integration layer for RouteJudge: researchers can implement routing methods within ORBIT, validate them on existing routing benchmarks, and submit compatible routers for online preference-based evaluation. The code of ORBIT is available at https://github.com/LAMDA-Model-Reuse/ORBIT.
- Abstract(参考訳): 我々は、LLMルーティングシステムのためのオンラインのペアワイズ選好評価フレームワークであるRouteJudgeを紹介し、公開プラットフォームはhttps://routejudge.cn.comで利用可能である。
モデルレベルの応答評価とは異なり、RouteJudgeはルータレベルの決定品質に重点を置いている。
ユーザクエリ毎に、複数のルーティング戦略は、同じモデルプールと予算制約の下で、独立して候補モデルを推奨します。
選択されたモデル応答は、匿名のペアワイズ比較を通じてユーザに提示され、その結果のユーザの好みは、比較されたレスポンスの背後にあるルーティング戦略に帰着する。
各評価レコードは、クエリ、ルーティング決定、モデル応答、嗜好ラベル、コスト、レイテンシ、タスクメタデータを格納し、LLMルータの嗜好認識、コスト認識、タスク条件付き解析を可能にする。
RouteJudgeにおけるルーティングメソッドの継続的拡張をサポートするため、LLMルーティングのエンドツーエンドワークフローを標準化するモジュール的で拡張可能なツールボックスであるORBIT(Optimal Routing and Budgeted Inference Toolbox)をリリースする。
ORBITは、ベンチマークローディング、クエリ表現、ルータの実装、予算対応評価、メソッド比較のための統一インターフェースを提供し、研究者は一貫したプロトコルの下でルーティングアルゴリズムを開発し評価することができる。
研究者はORBIT内でルーティングメソッドを実装し、既存のルーティングベンチマークで検証し、オンラインの嗜好に基づく評価のために互換性のあるルータを送信できる。
ORBITのコードはhttps://github.com/LAMDA-Model-Reuse/ORBITで公開されている。
関連論文リスト
- From Sampled Outcomes to Capability Distributions: Rethinking Supervision for LLM Routing [79.19755531338872]
既存のルーティングメソッドは、クエリに対するモデルの単一応答を、トレーニングの能力ラベルとして扱う。
この仮定はルーティング管理にシステマティックノイズを導入し、学習されたルーティングポリシーの信頼性を低下させることを示す。
本稿では, DARS(Distribution-Aware Routing Supervision)を提案する。
論文 参考訳(メタデータ) (2026-06-05T05:42:00Z) - Rubric-Guided Process Reward for Stepwise Model Routing [18.58577344135632]
ステップワイズモデルルーティングは、各推論ステップを適切なモデルに割り当てることで、Large Reasoning Models(LRM)の効率を改善する。
最近の方法では、順序決定プロセスとしてルーティングを定式化し、強化学習でルータを訓練する。
ステップワイズモデルルーティングのためのルーリック誘導プロセス報酬フレームワークであるRoRoを提案する。
論文 参考訳(メタデータ) (2026-05-28T03:42:24Z) - The Routing Plateau: Understanding and Breaking the Accuracy Limits of LLM Routers [19.847272668359707]
LLMルーティングは、各クエリのモデルを動的に選択することで、LLMサービスのコスト品質トレードオフを改善するための一般的なアプローチである。
最近の研究では、クラスタリングベースのルータ、学習された分類器、ペアワイズランキング、信頼に基づくアプローチなど、幅広いルーティング方法が検討されている。
kNNを含む多くの手法は、非常によく似た精度を達成し、オラクルルータよりはるかに低い狭い性能範囲に収束する。
論文 参考訳(メタデータ) (2026-05-27T19:29:01Z) - Learning Agent Routing From Early Experience [55.88886987958933]
バウンダリ(Boundary)は、初期の行動経験とルーリック誘導推論を使用して、クエリに直接推論で答えるか、エージェントにエスカレートするかを決定する、トレーニング不要なルーティングフレームワークである。
また, 直接LLM推定よりも28.6%性能が向上し, 予測時間を60.6%短縮することを示した。
論文 参考訳(メタデータ) (2026-05-08T03:18:40Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - Learning to Route LLMs from Bandit Feedback: One Policy, Many Trade-offs [69.2486294522259]
BaRPはBandit Routing-feedback with Preferencesアプローチであり、デプロイと同じ部分フィードバック制限の下でトレーニングされる。
提案手法は,学習中のオンラインフィードバック設定をシミュレートし,新たなプロンプトに適応する。
論文 参考訳(メタデータ) (2025-10-08T18:24:59Z) - Arch-Router: Aligning LLM Routing with Human Preferences [1.859931123372708]
ルーティングは、異なるモデルの使用を運用する上で不可欠な技術になっている。
本稿では、クエリをユーザ定義ドメインにマッチさせることで、モデル選択をガイドする、嗜好整合型ルーティングフレームワークを提案する。
我々のアプローチは主観評価基準を捉え、ルーティング決定をより透明で柔軟にする。
論文 参考訳(メタデータ) (2025-06-19T23:57:41Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z) - Inverse Optimization for Routing Problems [3.282021317933024]
Inverse Optimization (IO) を用いたルーティング問題における意思決定者の行動学習手法を提案する。
提案手法の柔軟性と実世界の可能性を示し,ルーティング問題における意思決定者の判断から学ぶ。
論文 参考訳(メタデータ) (2023-07-14T14:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。