Fugu-MT 論文翻訳(概要): Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

論文の概要: Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery

arxiv url: http://arxiv.org/abs/2606.17519v1
Date: Tue, 16 Jun 2026 04:55:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.275179
Title: Scaling Enterprise Agent Routing: Degradation, Diagnosis, and Recovery
Title（参考訳）: スケールするエンタープライズエージェントルーティング: 劣化、診断、回復
Authors: Kellen Gillespie, Robyn Perry,
Abstract要約: 110エージェント,584ツールカタログ上の単一ステップルーティングについて,企業生産性アシスタントを用いて検討した。本分析では, その劣化を, エンフレエバルギャップと, エンファンコンフュージョンギャップに分解する。埋め込みベースのショートリストは、3つのモデルと2つのプロバイダでフルスケールで+10-11pp F1を回復する。
参考スコア（独自算出の注目度）: 0.524242550204696
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Production LLM assistants route user requests to growing libraries of specialized tools, but how does routing accuracy degrade as the catalog scales? We study single-step routing on a 110-agent, 584-tool catalog from a deployed enterprise productivity assistant, evaluating three frontier models from 10 to 110 agents. Routing F1 on under-specified requests drops 16--23 percentage points across models. An oracle analysis decomposes the degradation into a \emph{retrieval} gap (the model cannot surface the right tool) and a \emph{confusion} gap (even with perfect retrieval, the oracle ceiling drops 10pp). Embedding-based shortlisting recovers +10--11pp F1 at full scale across all three models and two providers. A production annotation study (1,435 human-labeled utterances, three annotators) confirms the recovery on real traffic at +10--17pp despite 10--15pp lower absolute performance.
Abstract（参考訳）: Production LLMアシスタントは、ユーザリクエストを特別なツールのライブラリにルーティングするが、カタログの規模が大きくなるにつれて、ルーティングの精度はどのように低下するのだろうか? 本研究では,110エージェントから110エージェントまでの3つのフロンティアモデルの評価を行い,110エージェント,584ツールカタログの単一ステップルーティングについて検討した。未指定の要求に対するF1のルーティングは、モデル全体で16--23ポイント減少する。オラクル分析は、分解を(モデルが正しいツールを表面化できない)エンフ{retrieval}ギャップと(完全検索しても)エンフ{confusion}ギャップに分解する。埋め込みベースのショートリストは、3つのモデルと2つのプロバイダでフルスケールで+10-11pp F1を回復する。プロダクションアノテーション研究 (1,435人のラベル付き発話、3人のアノテータ) は、絶対的な性能が10～15pp低いにもかかわらず、+10～17ppで実際のトラフィックの回復を確認する。

関連論文リスト

What Matters for Grocery Product Retrieval with Open Source Vision Language Models [0.0]
本稿では,GroceryVision Challenge の MPR タスクにおいて,190個のオープンソース VLM のゼロショット評価を行った。生のWebスクレイプからフィルタリングデータセットへの切り替えは、最大16.6%の精度向上をもたらす。最先端モデルは94.5%のRecall@5を達成するが、Recall@1では17.5%の低下を被り、対照的な埋め込みはクラスタカテゴリを効果的に活用するが、視覚的に類似したSKUをランク付けすることができないことが明らかになった。
論文参考訳（メタデータ） (2026-05-18T08:20:13Z)
APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文参考訳（メタデータ） (2026-03-31T00:24:56Z)
Pull Requests as a Training Signal for Repo-Level Code Editing [49.82435173554125]
Clean Pull Request(Clean-PR)は、現実のGitHubプルリクエストをリポジトリレベルの編集のトレーニングシグナルとして活用する、トレーニング中のパラダイムである。ノイズの多いプルリクエストの差分を,再構築と検証を通じて検索/リプレース編集ブロックに変換する,スケーラブルなパイプラインを導入する。 SWE-benchでは,SWE-bench Liteが13.6%,SWE-bench Verifiedが12.3%,命令調整ベースラインが大幅に向上した。
論文参考訳（メタデータ） (2026-02-07T09:22:25Z)
LLMRouterBench: A Massive Benchmark and Unified Framework for LLM Routing [44.046399484829635]
大規模言語モデル(LLM)ルーティングは、各クエリをアンサンブルから最も適切なモデルに割り当てる。 LLMルーティングのための大規模ベンチマークおよび統合フレームワークであるLLMBenchを紹介する。 21のデータセットと33のモデルから400K以上のインスタンスで構成されている。
論文参考訳（メタデータ） (2026-01-12T05:01:15Z)
RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文参考訳（メタデータ） (2025-11-27T07:20:52Z)
Dr.LLM: Dynamic Layer Routing in LLMs [55.11953638340419]
Dr.LLMは、事前訓練されたモデルに軽量な層ごとのルータを装備し、ブロックをスキップ、実行、繰り返すように決定する、適合性のあるフレームワークである。 ARC(logic)とDART(math)では、Dr.LLMは平均で5つのレイヤを保存しながら、最大3.4%の精度向上を実現している。
論文参考訳（メタデータ） (2025-10-14T17:51:26Z)
zELO: ELO-inspired Training Method for Rerankers and Embedding Models [0.02330164376631037]
教師なしデータを用いて、最先端のオープンウェイトリランカモデルであるzerank-1とzerank-1-smallをトレーニングする。これらのモデルは、金融、法務、コード、STEMを含む複数の領域で最高の検索スコアを得る。トレーニングデータには、クエリ毎に112,000のクエリと100のドキュメントが含まれており、注釈のないクエリとドキュメントから1万時間未満でエンドツーエンドにトレーニングされた。
論文参考訳（メタデータ） (2025-09-16T00:44:08Z)
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-06T03:06:33Z)
Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。 HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。