論文の概要: SCAR: Semantic Continuity-Aware Retrieval for Efficient Context Expansion in RAG
- arxiv url: http://arxiv.org/abs/2606.16661v1
- Date: Mon, 15 Jun 2026 12:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.059309
- Title: SCAR: Semantic Continuity-Aware Retrieval for Efficient Context Expansion in RAG
- Title(参考訳): SCAR: RAGにおける効率的なコンテキスト拡張のための意味的連続性を考慮した検索
- Authors: Nathanaël Langlois,
- Abstract要約: SCAR(Semantic Continuity-Aware Retrieval)は、構造的連続性ペナルティに対してクエリ隣の関連性を重み付け、近隣のチャンクを拡張する適応型検索ポリシーである。
4つの多様なコーパス(RFC, 10-K レポート, Merger 契約; N=320 クエリ, 160 境界フラグメンテーション)において SCAR は,静的ウィンドウ処理 (10.16 チャンク) に比べて 22.9% 削減された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fixed-length chunking in Retrieval-Augmented Generation (RAG) often leads to boundary fragmentation, where critical evidence is split across segments, degrading retrieval recall. While static windowing and parent retrieval improve recall, they introduce significant token overhead. We propose SCAR (Semantic Continuity-Aware Retrieval), an adaptive retrieval policy that selectively expands neighboring chunks by weighing query-neighbor relevance against a structural continuity penalty. SCAR uses a relative expansion threshold tied to each retrieved chunk's own query-relevance, yielding an approximately scale-invariant decision rule that transfers across embedding models without recalibration. Across four diverse corpora (RFC, GDPR, a 10-K report, and a Merger agreement; N=320 queries; 160 boundary-fragmented), SCAR achieves 92.8% recall on boundary-fragmented queries with only 7.84 chunks, a 22.9% reduction compared to static windowing (10.16 chunks). Paired bootstrap tests (B=10,000) confirm the chunk reduction is highly significant (p<0.0001, Cohen's d=-1.49, large effect), with a small recall difference (Cohen's d=-0.33). The policy transfers across three embedding models (text-embedding-3-large, BGE-large-en-v1.5, zembed-1) using the same single hyperparameter setting, and downstream RAGAS evaluation on the 10-K corpus confirms SCAR preserves generation faithfulness while reducing context tokens by 27.1%.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) における固定長チャンキングは、しばしば境界の断片化につながる。
静的ウィンドウニングと親検索はリコールを改善する一方で、重要なトークンオーバーヘッドを導入している。
SCAR(Semantic Continuity-Aware Retrieval)は、構造的連続性ペナルティに対してクエリ隣の関連性を重み付け、近隣のチャンクを選択的に拡張する適応型検索ポリシーである。
SCARは、取得したチャンクのクエリ関連性に関連付けられた相対的な拡張しきい値を使用し、大まかにスケール不変な決定ルールを生成し、再校正なしで埋め込みモデル間で転送する。
4つの多様なコーパス(RFC、GDPR、10-Kレポート、マーガー契約、N=320クエリ、160境界フラグメンテーション)でSCARは7.84チャンクしか持たない境界フラグメンテッドクエリに対して92.8%のリコールを達成し、静的ウィンドウニング(10.16チャンク)に比べて22.9%の削減を実現している。
ペアリングブートストラップ試験(B=10,000)では、チャンク削減が極めて重要である(p<0.0001, Cohen's d=-1.49, 大効果)が、リコール差は小さい(Cohen's d=-0.33)。
3つの埋め込みモデル(text-embedding-3-large, BGE-large-en-v1.5, zembed-1)を同じ単一ハイパーパラメータ設定で転送し、10-Kコーパスの下流RAGAS評価により、SCARはコンテキストトークンを27.1%削減しながら生成忠実性を維持することを確認した。
関連論文リスト
- ScoreGate: Adaptive Chunk Selection for Retrieval-Augmented Generation via Dual-Score Statistical Fusion [0.0]
本稿では,ScoreGateについて述べる。ScoreGateは軽量なスコア空間決定機構で,推定時刻における検索濃度を制御する。
MS MARCO (200 開発クエリ)では、ScoreGate は MRR@10 = 0.401 を達成する。
MS MARCOと実世界の生産トラフィックの結果から,適応的検索基準は検索品質を劣化させることなく,検索効率を向上させることが示唆された。
論文 参考訳(メタデータ) (2026-06-12T08:51:24Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Query-Adaptive Semantic Chunking for Retrieval-Augmented Generation: A Dynamic Strategy with Contextual Window Expansion [0.0]
本稿では,クエリを3つのメカニズムを通じてセグメンテーションに統合することにより,チャンクを動的に構築するクエリ適応セマンティックチャンキング(QASC)を提案する。
QASCのF1スコアは0.85で、固定チャンクよりも18-27%、意味論的およびエージェント的代替よりも8-12%向上している。
論文 参考訳(メタデータ) (2026-04-29T06:40:53Z) - Reducing Maintenance Burden in Behaviour-Driven Development: A Paraphrase-Robust Duplicate-Step Detector with a 1.1M-Step Open Benchmark [1.9537983097153042]
振る舞い駆動開発スイートは、ドキュメント化されたメンテナンスコストとステップ重複の重複を蓄積します。
私たちはこれまでで最大の組織横断的なBDDステップコーパスをリリースします。
論文 参考訳(メタデータ) (2026-04-22T11:44:05Z) - Semantic Entanglement in Vector-Based Retrieval: A Formal Framework and Context-Conditioned Disentanglement Pipeline for Agentic RAG Systems [0.0]
埋め込み空間における交叉重なりのモデル相対尺度として意味的絡み合いを定式化する。
埋め込みに先立って文書を再構成する4段階の事前処理フレームワークであるセマンティック・ディスタングルメント・パイプライン(SDP)を紹介した。
約25のサブドメインにわたる2,000以上のドキュメントからなる実世界の企業医療知識ベースでSDPを評価した。
論文 参考訳(メタデータ) (2026-04-20T00:24:34Z) - LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - From Feature Interaction to Feature Generation: A Generative Paradigm of CTR Prediction Models [81.43473418572567]
CTR(Click-Through Rate)予測は、レコメンデーションシステムにおける中核的なタスクである。
本稿では,埋め込み次元の崩壊と情報冗長性に対処する新しい生成フレームワークを提案する。
SFGは埋没崩壊を緩和し,情報冗長性を低減し,性能向上を図っている。
論文 参考訳(メタデータ) (2025-12-16T03:17:18Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。