論文の概要: The Token Tax of Epistemic Accuracy: Comparing RAG and Long-Context Architectures for Document-Grounded Generative AI Applications
- arxiv url: http://arxiv.org/abs/2606.20898v1
- Date: Thu, 18 Jun 2026 19:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:05:57.211057
- Title: The Token Tax of Epistemic Accuracy: Comparing RAG and Long-Context Architectures for Document-Grounded Generative AI Applications
- Title(参考訳): 先天的精度のトークン税--文書型生成AIアプリケーションにおけるRAGと長期的アーキテクチャの比較
- Authors: Austin Hamilton, Ryan Singh, Michael Wise, Ibrahim Yousif, Arthur Carvalho, Zhe Shan, Mohammad Mayyas, Lora A. Cavuoto, Fadel M. Megahed,
- Abstract要約: 本稿では, (a) 関連パスを検索する検索拡張生成(RAG) と, (b) 文書コレクション全体をコンテキストでロードする長文プロンプトの2つの基盤アーキテクチャを比較した。
専門家検証ベンチマークを用いて,3つのマシン,2つの小言語モデル,3つの検索・イン・コンテクスト・プロンプトアプローチを用いて,972の回答を評価した。
長いコンテキストのプロンプトは最も正確(セマンティックRAGでは73.1%対65.4%)であるが、クエリ当たりのトークンコストの26倍である。
- 参考スコア(独自算出の注目度): 3.566534817171158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-grounded assistants built on large language models are increasingly used in high-stakes, knowledge-intensive work. Their usefulness, however, may depend on how evidence is allocated before generation. We investigate such a claim by comparing two grounding architectures: (a) retrieval-augmented generation (RAG) that retrieves a few relevant passages, and (b) long-context prompting, which loads the whole document collection in context. We view these as two regimes of "epistemic access" on an accuracy--cost frontier. We use "epistemic accuracy" to capture model correctness that depends on having the right evidence. We posit that broader access (via long context) can increase it, but with a "token tax" (i.e., a substantial increase in cost due to larger input token consumption). We probe this framing with a case study in manufacturing safety training. Using an expert-validated benchmark, we evaluate 972 answers across three machines, two small language models, and three retrieval/in-context prompting approaches. Long-context prompting achieved the highest correctness (73.1% vs. 65.4% for semantic RAG), but at 26 times the per-query token cost. We interpret this gap as the token tax of broader evidentiary access. We carefully discuss the implications of our findings for resource-constrained organizations.
- Abstract(参考訳): 大規模言語モデル上に構築されたドキュメント基底アシスタントは、高い知識集約的な作業にますます利用されている。
しかし、それらの有用性は、どのように証拠が生成前に割り当てられるかによって異なるかもしれない。
2つの基礎アーキテクチャを比較することで、このような主張を考察する。
(a)いくつかの関連通路を検索する検索増強世代(RAG)
b) コンテキスト内でドキュメントコレクション全体をロードするロングコンテキストプロンプト。
われわれはこれらを、精度の高いフロンティアにおける「緊急アクセス」の2つのレジームと見なしている。
私たちは、正しい証拠を持つことに依存するモデルの正しさを捉えるのに、" atistemic accuracy"を使用します。
より広範なアクセスを(長期的コンテキストを通じて)増やすことができると仮定するが、"トークン税(token tax)"(入力トークン消費の増大によるコストの大幅な増加)がある。
我々はこのフレーミングを、製造安全訓練のケーススタディで調査する。
専門家検証ベンチマークを用いて,3つのマシン,2つの小言語モデル,3つの検索・イン・コンテクスト・プロンプトアプローチを用いて,972の回答を評価した。
長文のプロンプトは最も正確性が高い(セマンティックRAGでは73.1%対65.4%)が、クエリ当たりのトークンコストの26倍である。
我々はこのギャップを、より広い情報アクセスのトークン税と解釈する。
資源に制約のある組織に対する研究結果の意義を慎重に検討する。
関連論文リスト
- Rerank Before You Reason: Analyzing Reranking Tradeoffs through Effective Token Cost in Deep Search Agents [50.212640395029744]
深層探索パイプラインにおける推論予算の配分について検討する。
BrowseComp-Plusベンチマークを用いて、モデルスケール、推論の労力、深度の再検討、トークン総コストのトレードオフを分析する。
論文 参考訳(メタデータ) (2026-01-20T18:38:35Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models [0.0]
BudgetMemは、すべてを記憶するのではなく、何を記憶すべきかを学ぶ、新しいメモリ拡張アーキテクチャである。
本システムでは,厳格な予算制約下での記憶にどのような価値があるかを決定するために,選択的メモリポリシーと特徴に基づくサリエンススコアを併用する。
我々の研究は、高度な言語理解能力へのアクセスを民主化し、控えめなハードウェア上で有能な長期コンテキストシステムをデプロイするための実践的な経路を提供する。
論文 参考訳(メタデータ) (2025-11-07T01:49:22Z) - FinReflectKG - MultiHop: Financial QA Benchmark for Reasoning with Knowledge Graph Evidence [0.0]
FinReflectKG - FinReflectKG上に構築されたベンチマークであるMultiHop。
我々は、KGから正確な裏付けのある財務アナリストスタイルの質問を生成する。
推論モデルと非推論モデルの両方において、KG誘導による正確な検索は実質的な利得をもたらす。
論文 参考訳(メタデータ) (2025-10-03T11:19:31Z) - BifrostRAG: Bridging Dual Knowledge Graphs for Multi-Hop Question Answering in Construction Safety [11.079426930790458]
多くのコンプライアンス関連のクエリはマルチホップであり、リンクされた節間で情報を合成する必要がある。
これは、従来の検索拡張世代(RAG)システムにとっての課題である。
本稿では、言語関係と文書構造の両方を明示的にモデル化した二重グラフRAG統合システムであるBifrostRAGを紹介する。
論文 参考訳(メタデータ) (2025-07-18T03:39:14Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - SAIS: Supervising and Augmenting Intermediate Steps for Document-Level
Relation Extraction [51.27558374091491]
本稿では,関係抽出のための中間ステップ(SAIS)を監督し,拡張することにより,関連コンテキストやエンティティタイプをキャプチャするモデルを明示的に教えることを提案する。
そこで本提案手法は,より効果的な管理を行うため,より優れた品質の関係を抽出するだけでなく,それに対応する証拠をより正確に抽出する。
論文 参考訳(メタデータ) (2021-09-24T17:37:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。