論文の概要: EverydayGPT: Confidence-Gated Routing for Efficient and Safe Hybrid GPT-RAG Conversational QA
- arxiv url: http://arxiv.org/abs/2606.11212v1
- Date: Fri, 24 Apr 2026 12:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.839574
- Title: EverydayGPT: Confidence-Gated Routing for Efficient and Safe Hybrid GPT-RAG Conversational QA
- Title(参考訳): 日常GPT: 効率的かつ安全なハイブリッドGPT-RAG対話型QAのための信頼性保証型ルーティング
- Authors: Jaspreet Singh Nahal,
- Abstract要約: EverydayGPTは、信頼性保証ルーティング機構を中心に構築された軽量な会話型QAシステムである。
CGRは、高速なRAG抽出によって解決することで、クエリの85%に対してコストのかかるGPT経路の呼び出しを回避している。
システムは F1 = 0.226 +/- 0.004 を GPT のみの 0.171 と無条件の RAG の 0.210 と比較すると達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard Retrieval-Augmented Generation (RAG) pipelines route every query through retrieval and generation unconditionally, incurring unnecessary computation and propagating low-quality context to the generator. We introduce EverydayGPT, a lightweight conversational QA system built around a Confidence-Gated Routing (CGR) mechanism that formalises the routing decision as a joint policy over retrieval distance and extraction adequacy. The backbone is a 205M-parameter GPT trained from scratch on 10B tokens of FineWeb-Edu. CGR avoids invoking the costly GPT pathway (~5.9s) for 85 percent of queries by resolving them via fast RAG extraction (~45 ms), yielding over 120x latency reduction on the majority of queries while maintaining answer quality. On a 500-question in-domain benchmark, the system achieves F1 = 0.226 +/- 0.004 compared to 0.171 for GPT-only and 0.210 for unconditional RAG. Gains over strong baselines are modest but consistent, while efficiency improvements are substantial (6.3x mean latency reduction). A structured grounding audit finds no unsupported claims in the sampled set, with explicit scope limitations. We position this work as a study of routing strategies under resource constraints rather than a claim of state-of-the-art performance.
- Abstract(参考訳): Standard Retrieval-Augmented Generation (RAG)パイプラインは、検索と生成を通じて全てのクエリを無条件にルーティングし、不要な計算を発生させ、低品質のコンテキストをジェネレータに伝搬する。
EverydayGPTは信頼性保証型ルーティング(CGR)機構を中心に構築された軽量な対話型QAシステムで、ルーティング決定を検索距離と抽出精度に対する共同ポリシーとして定式化する。
バックボーンは、FineWeb-Eduの10Bトークンでスクラッチからトレーニングされた205MパラメータのGPTである。
CGR は、高速な RAG 抽出 (~45 ms) で解決することで、クエリの85%に対してコストのかかる GPT 経路 (~5.9s) の呼び出しを避ける。
500クエストのドメイン内ベンチマークでは、F1 = 0.226 +/- 0.004をGPTのみの0.171、無条件のRAGの0.210と比較した。
強いベースライン以上のゲインは控えめだが一貫性があり、効率の改善は相当なもの(平均レイテンシの6.3倍)である。
構造化された接地監査は、明示的なスコープ制限とともに、サンプルセットでサポートされないクレームを見つけます。
我々は、この研究を、最先端のパフォーマンスの主張よりも、リソース制約下でのルーティング戦略の研究として位置付ける。
関連論文リスト
- Certified Causal Attribution for Real-Time Attack Forensics in 6G Network Slicing [2.9461530983010196]
6Gネットワークにおけるクロススライス攻撃の帰属には,100ms未満の共有インフラストラクチャによる因果伝播連鎖の同定が必要である。
本稿では,資源条件付きグランガー因果関係と公理的に派生したリソースコンテントモデルを統合する,認証因果帰属フレームワークであるDA-GCを提案する。
DA-GCは1,100の攻撃シナリオを持つ15スライス生産エミュレーション6Gテストベッドで、89.2%の属性精度を87msで達成した。
論文 参考訳(メタデータ) (2026-05-26T08:16:00Z) - PAR$^2$-RAG: Planned Active Retrieval and Reasoning for Multi-Hop Question Answering [57.89576196160413]
大規模言語モデル (LLM) はマルチホップ質問応答 (MHQA) において脆弱のままである。
textbfPlanned Active Retrieval and Reasoning RAG (PAR$2-RAG)を提案する。
論文 参考訳(メタデータ) (2026-03-30T23:52:54Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Less is More for RAG: Information Gain Pruning for Generator-Aligned Reranking and Evidence Selection [26.57845149504473]
RAGは、外部のエビデンスを持つ大きな言語モデルを基盤としているが、限られたコンテキスト予算の下では、どのパスを注入すべきかを判断することが重要な課題である。
検索関連度指標は, エンドツーエンドQA品質と相関が低く, マルチパスインジェクションにおいて負の相関が生じることも示している。
このモジュールは,ジェネレータに整列したユーティリティ信号を用いてエビデンスを選択し,切断前に弱い経路や有害経路をフィルタリングする。
論文 参考訳(メタデータ) (2026-01-24T17:14:10Z) - L-RAG: Balancing Context and Retrieval with Entropy-Based Lazy Loading [0.0]
Reval-Augmented Generation (RAG) は、大規模言語のアウトプットを現実の知識で基礎づける主要なパラダイムとして登場した。
本稿では,エントロピーゲーティングによる階層型コンテキスト管理を実現する適応型フレームワークL-RAGを紹介する。
L-RAGはより効率的なRAGデプロイメントに向けた実践的でトレーニングなしのアプローチを提供する。
論文 参考訳(メタデータ) (2026-01-10T12:25:19Z) - Rethinking Retrieval: From Traditional Retrieval Augmented Generation to Agentic and Non-Vector Reasoning Systems in the Financial Domain for Large Language Models [0.0]
本稿では,ベクトルベースエージェントRAGをハイブリッド検索とメタデータフィルタリングを用いて比較した最初の体系的評価を行う。
検索指標(MRR, Recall@5), LLM-as-a-judgeのペア比較, レイテンシ, 前処理コストを計測する。
以上の結果から,金融Q&Aシステムに先進的なRAG技術を適用することにより,検索精度,回答品質が向上し,生産における費用対効果のトレードオフが考慮されることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-22T20:06:25Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Evaluating Retrieval-Augmented Generation Systems on Unanswerable, Uncheatable, Realistic, Multi-hop Queries [53.99620546358492]
実世界のユースケースでは、複雑なクエリを持つRAGシステムが存在し、関連する情報がコーパスから欠落したり、不完全であったりすることが多い。
既存のRAGベンチマークは、マルチホップやスコープ外の質問に対して、現実的なタスクの複雑さを反映することはめったにない。
un$underlinec$heatable, $underliner$ealistic, $underlineu$nanswerable, $underlinem$ulti-hopの自動生成のための最初のパイプラインを提示する。
論文 参考訳(メタデータ) (2025-10-13T21:38:04Z) - Retrieval-Augmented Generation for Reliable Interpretation of Radio Regulations [49.671779378073886]
無線規制分野における質問応答について検討する。
本稿では,通信事業者固有のレトリーバル拡張生成(RAG)パイプラインを提案する。
当社のアプローチは,テスト対象モデル全体の生成精度を一貫して向上させる。
論文 参考訳(メタデータ) (2025-09-11T17:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。