論文の概要: The Routing Plateau: Understanding and Breaking the Accuracy Limits of LLM Routers
- arxiv url: http://arxiv.org/abs/2606.07587v1
- Date: Wed, 27 May 2026 19:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.748964
- Title: The Routing Plateau: Understanding and Breaking the Accuracy Limits of LLM Routers
- Title(参考訳): 経路台地:LLMルータの精度限界の理解と破壊
- Authors: Yifan Lu, Qiyue Zhang, Shenrun Zhang, Zhibo Yu, Zhuang Wang, Hanjie Chen, Jiarong Xing,
- Abstract要約: LLMルーティングは、各クエリのモデルを動的に選択することで、LLMサービスのコスト品質トレードオフを改善するための一般的なアプローチである。
最近の研究では、クラスタリングベースのルータ、学習された分類器、ペアワイズランキング、信頼に基づくアプローチなど、幅広いルーティング方法が検討されている。
kNNを含む多くの手法は、非常によく似た精度を達成し、オラクルルータよりはるかに低い狭い性能範囲に収束する。
- 参考スコア(独自算出の注目度): 19.847272668359707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM routing has become a popular approach to improve the cost-quality trade-off of LLM services by dynamically selecting a model for each query. Recent work has explored a broad range of routing methods, including clustering-based routers, learned classifiers, pairwise ranking, and confidence-based approaches. Our extensive study of 21 routing methods across five benchmarks reveals a consistent phenomenon that we call the routing plateau: many methods, including kNN, achieve very similar accuracy and converge to a narrow performance range that remains far below the oracle router. Our investigation shows that the plateau is largely caused by a predictability bottleneck: current routers mainly learn global averaged model-performance trends rather than fine-grained query-specific routing signals. As a result, they solve overlapping easy queries but collectively fail on hard queries that require instance-specific routing decisions. We further study how to move beyond the plateau and find that larger training datasets, stronger encoders, and end-to-end fine-tuning can further improve routing accuracy. These findings characterize the common limits of current routing methods and provide insights and actionable directions for the community to build more effective routing systems.
- Abstract(参考訳): LLMルーティングは、各クエリのモデルを動的に選択することで、LLMサービスのコスト品質トレードオフを改善するための一般的なアプローチとなっている。
最近の研究では、クラスタリングベースのルータ、学習された分類器、ペアワイズランキング、信頼に基づくアプローチなど、幅広いルーティング方法が検討されている。
kNNを含む多くの手法は、非常によく似た精度を達成し、オラクルルータよりはるかに低い狭い性能範囲に収束する。
現在のルータは主に細粒度クエリ固有のルーティング信号ではなく,世界的な平均モデル性能トレンドを学習しています。
その結果、単純なクエリの重複を解決すると同時に、インスタンス固有のルーティング決定を必要とするハードクエリをまとめてフェールさせる。
さらに、高原を越えて移動する方法を研究し、より大きなトレーニングデータセット、より強力なエンコーダ、エンドツーエンドの微調整により、ルーティングの精度がさらに向上することを発見した。
これらの知見は、現在のルーティング手法の共通的な限界を特徴づけ、コミュニティがより効果的なルーティングシステムを構築するための洞察と行動可能な方向を提供する。
関連論文リスト
- Learning Agent Routing From Early Experience [55.88886987958933]
バウンダリ(Boundary)は、初期の行動経験とルーリック誘導推論を使用して、クエリに直接推論で答えるか、エージェントにエスカレートするかを決定する、トレーニング不要なルーティングフレームワークである。
また, 直接LLM推定よりも28.6%性能が向上し, 予測時間を60.6%短縮することを示した。
論文 参考訳(メタデータ) (2026-05-08T03:18:40Z) - Efficient and Interpretable Multi-Agent LLM Routing via Ant Colony Optimization [58.59491516762626]
マルチエージェントシステム(MAS)のための効率的かつ解釈可能なルーティングフレームワークAMRO-Sを提案する。
AMRO-Sは、意味条件付き経路選択問題としてMASルーティングをモデル化し、3つのキーメカニズムを通してルーティング性能を向上させる。
5つの公開ベンチマークと高速ストレステストによる大規模な実験により、AMRO-Sは強いルーティングベースラインに対する品質-コストトレードオフを一貫して改善することを示した。
論文 参考訳(メタデータ) (2026-03-13T12:26:05Z) - LLMRouterBench: A Massive Benchmark and Unified Framework for LLM Routing [44.046399484829635]
大規模言語モデル(LLM)ルーティングは、各クエリをアンサンブルから最も適切なモデルに割り当てる。
LLMルーティングのための大規模ベンチマークおよび統合フレームワークであるLLMBenchを紹介する。
21のデータセットと33のモデルから400K以上のインスタンスで構成されている。
論文 参考訳(メタデータ) (2026-01-12T05:01:15Z) - Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。
ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-14T17:51:26Z) - AgentRouter: A Knowledge-Graph-Guided LLM Router for Collaborative Multi-Agent Question Answering [51.07491603393163]
tAgentは知識グラフ誘導ルーティング問題としてマルチエージェントQAを定式化するフレームワークである。
エージェントアウトプットのソフトな監督と重み付けされた集約を活用することで、エージェントは多様なエージェントの相補的な強みを捉える、原則化された協調スキームを学ぶ。
論文 参考訳(メタデータ) (2025-10-06T23:20:49Z) - RAGRouter: Learning to Route Queries to Multiple Retrieval-Augmented Language Models [45.58601993849455]
Retrieval-Augmented Generation (RAG) は、知識集約タスクにおけるLarge Language Models (LLM) の性能を大幅に向上させる。
既存のルーティング手法はRAGシナリオで最適以下の性能を示すのに対し,外部文書はLLMのクエリ応答能力に動的に影響を及ぼす。
本稿では、文書埋め込みとRAG機能埋め込みを利用して知識表現シフトを捉えるパラメトリックなRAG対応ルーティング設計であるRAGを提案する。
論文 参考訳(メタデータ) (2025-05-29T03:44:56Z) - Rethinking Predictive Modeling for LLM Routing: When Simple kNN Beats Complex Learned Routers [3.090041654375235]
我々は、k-Nearest Neighbors (kNN) アプローチが、様々なタスクにまたがる最先端の学習ルータよりも優れていることを示す。
その結果, 埋め込み空間におけるモデル性能の局所性は, 単純な非パラメトリック手法によって強いルーティング決定を実現できることがわかった。
論文 参考訳(メタデータ) (2025-05-19T01:33:41Z) - Universal Model Routing for Efficient LLM Inference [69.86195589350264]
モデルルーティングは,大規模言語モデル(LLM)の推論コストを削減する手法である
動的ルーティング問題に対する新しいアプローチであるUniRouteを提案する。
これらは理論的に最適なルーティングルールの推定であり、過大なリスクバウンドによってそれらのエラーを定量化する。
論文 参考訳(メタデータ) (2025-02-12T20:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。