論文の概要: To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG
- arxiv url: http://arxiv.org/abs/2606.25191v1
- Date: Tue, 23 Jun 2026 21:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.148938
- Title: To Isolate or to Score? Model-Adaptive Assessment for Cost-Efficient Multi-Agent RAG
- Title(参考訳): 分離・スコア化に向けて : コスト効率・マルチエージェントRAGのモデル適応評価
- Authors: Jungseob Lee, Chanjun Park, Heuiseok Lim,
- Abstract要約: 検索拡張生成のためのマルチエージェント文書評価は計算コストが高い。
各種QAベンチマークを用いて、7B-9B命令調整モデルに対する無訓練介入の制御を行った。
モデル適応型ルーティングアーキテクチャであるMADARAを提案する。
- 参考スコア(独自算出の注目度): 31.664195597760422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent document assessment for retrieval-augmented generation is computationally expensive, driving practitioners toward smaller, deployable models whose assessment mechanisms remain poorly understood. We conduct a controlled study of training-free interventions on 7B-9B instruction-tuned models across diverse QA benchmarks, revealing a sharp dichotomy in how models benefit from assessment. For weaker baselines, the dominant mechanism is per-document isolation. Astoundingly, assessment-free isolation matches full multi-agent assessment, demonstrating that resolving multi-document context confusion, rather than scoring quality, drives outsized gains of up to 50 percentage points. Conversely, for strong baselines where scoring quality matters, we introduce Reasoning-Score Coupling, a label-free perturbation probe that classifies scoring behavior. Integrating these findings, we propose MADARA, a model-adaptive routing architecture. Crucially, MADARA's diagnostic thresholds derived from a single pilot model generalize zero-shot to four unseen model families, providing a robust, lightweight pipeline to eliminate computational overhead.
- Abstract(参考訳): 検索拡張生成のためのマルチエージェント文書アセスメントは計算コストがかかり、評価メカニズムが未理解の小型でデプロイ可能なモデルに実践者を誘導する。
各種QAベンチマークを用いて、7B-9B命令調整モデルに対するトレーニング不要の介入を制御し、モデルが評価の恩恵を受ける方法の明確な二分法を明らかにする。
より弱いベースラインでは、ドキュメントごとの分離が支配的なメカニズムである。
驚くべきことに、アセスメントフリーの分離は完全なマルチエージェント評価と一致し、品質を評価するのではなく、マルチドキュメントコンテキストの混乱を解決することで最大50パーセントの利得を達成している。
逆に、スコアリング品質が重要となる強いベースラインに対しては、スコアリング動作を分類するラベルフリー摂動プローブであるReasoning-Score Couplingを導入する。
これらの知見を統合し,モデル適応型ルーティングアーキテクチャMADARAを提案する。
重要なことに、単一のパイロットモデルに由来するMADARAの診断しきい値は、ゼロショットを4つの見えないモデルファミリに一般化し、計算オーバーヘッドをなくすための堅牢で軽量なパイプラインを提供する。
関連論文リスト
- Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization [17.34147279018477]
統計的妥当性を損なうことなく,MABと安価な予測スコアを組み合わせた原理的枠組みを提案する。
分散を低減するために低ランク予測を用いた各モデルの性能の2倍頑健な推定器を導出する。
実世界のベンチマークによる実証的な結果から,本手法は必要な評価回数を削減し,計算とコストに有意義な節約をもたらすことが示された。
論文 参考訳(メタデータ) (2026-05-11T11:43:28Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2026-02-06T22:14:46Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Revitalizing Saturated Benchmarks: A Weighted Metric Approach for Differentiating Large Language Model Performance [3.666887868385651]
既存のベンチマークは飽和しており、データ汚染などの要因によりモデルパフォーマンスの分離に苦慮している。
本稿では,モデル分離の強化によってベンチマークを活性化する新しい重み付き計量である拡張モデル微分メトリックを紹介する。
論文 参考訳(メタデータ) (2025-03-07T16:25:09Z) - Auditing an Automatic Grading Model with deep Reinforcement Learning [0.0]
自動短解格付け(ASAG)モデルに対する深層強化学習の活用について検討する。
人間の評価に対する高いレベルの合意は、ASAGモデルが誤りであることを示す十分な証拠を与えていないことを示す。
論文 参考訳(メタデータ) (2024-05-11T20:07:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。