論文の概要: Hybrid Neural Retrieval with Generative Query Refinement for Quranic Passage Retrieval
- arxiv url: http://arxiv.org/abs/2606.13837v1
- Date: Thu, 11 Jun 2026 19:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.595016
- Title: Hybrid Neural Retrieval with Generative Query Refinement for Quranic Passage Retrieval
- Title(参考訳): Quranic Passage Retrievalのための生成クエリリファインメントを用いたハイブリッドニューラル検索
- Authors: Mohamed G. Salman, Mohammad E. Moftah, Ali Hamdi,
- Abstract要約: クラニック・パッセージ・レトリーヴァル (PR) は、現代標準アラビア語 (MSA) と聖クラーンの古典アラビア語 (CA) の間の言語的複雑さと意味的ギャップのために難しい課題となる可能性がある。
本稿では,検索精度の向上と文脈理解を目的とした4相ニューラルアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.25489046505746704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quranic Passage Retrieval (PR) could be a challenging task due to the linguistic complexity and the semantic gap between the Modern Standard Arabic (MSA) used in daily queries and the Classical Arabic (CA) of the Holy Quran. These factors hinder conventional retrieval methods. To handle these limitations and improve multi-verse retrieval and filter the zero-answer queries, this paper proposes a four-phase neural architecture designed to enhance retrieval accuracy and contextual understanding. The methodology combines hybrid candidate retrieval using AraColBERT dense indexing and BM25 sparse retrieval, followed by semantic reranking with a CAMeLBERTmix cross-encoder. A confidence gating mechanism is then applied to filter zero-answer queries, and an AraT5-based refinement module for multi-verse aggregation. The system is evaluated on an expanded version of the Quran QA 2022 dataset. Results show improved performance compared to the baseline models, achieving a Recall@10 of 0.7024 and a Mean Average Precision (MAP@10) of 0.4947. While the system exhibits a marginal tradeoff in absolute top-rank precision (MRR = 0.5807) compared to heavily optimised single models, the proposed architecture provides a substantially more comprehensive, reliable, and context aware solution for multi-verse Quranic passage retrieval.
- Abstract(参考訳): クラニック・パッセージ・レトリーヴァル(英語: Quranic Passage Retrieval, PR)は、日常的な問合せに使用される現代標準アラビア語(MSA)と聖クラーンの古典アラビア語(CA)との間の言語的複雑さと意味的ギャップのために難しい課題である可能性がある。
これらの要因は、従来の検索方法を妨げる。
これらの制限に対処し、マルチバース検索を改善し、ゼロ・アンサー・クエリをフィルタリングするために、検索精度と文脈理解を向上する4相ニューラルネットワークアーキテクチャを提案する。
この手法は、AraColBERT高密度インデックスとBM25スパース検索を用いたハイブリッド候補検索と、CAMeLBERTmixクロスエンコーダによるセマンティックリグレードを組み合わせたものである。
次に、ゼロアンサークエリをフィルタする信頼ゲーティング機構と、マルチバースアグリゲーションのためのAraT5ベースのリファインメントモジュールに適用する。
システムはQuran QA 2022データセットの拡張バージョンで評価される。
その結果、ベースラインモデルと比較してパフォーマンスが向上し、Recall@10が0.7024、平均精度(MAP@10)が0.4947に達した。
このシステムは,高度に最適化された単一モデルと比較して,絶対的トップランク精度(MRR = 0.5807)の限界トレードオフを示す一方で,提案アーキテクチャは,より包括的で信頼性が高く,コンテキストに配慮したマルチバースクレーン通過探索ソリューションを提供する。
関連論文リスト
- Benchmarking Retrieval Strategies for Biomedical Retrieval-Augmented Generation: A Controlled Empirical Study [0.0]
本稿では,生物医学的質問応答RAGパイプラインにおける5つの検索戦略の体系的比較について述べる。
すべての戦略は固定生成モデル(GPT-4o-mini)、共通ベクトルストア(ChromaDB)、OpenAIのテキスト-em-3-小埋め込みを共有している。
BioASQベンチマークの前処理部分集合から抽出した250の質問応答対について評価を行った。
論文 参考訳(メタデータ) (2026-05-04T12:21:46Z) - From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents [0.0]
スパース, 密度, ハイブリッド融合, クロスエンコーダリグレード, クエリ拡張, インデックス拡張, 適応検索にまたがる10の検索戦略をベンチマークした。
我々はRecall@k,MRR,nDCGによる検索品質とNumber Matchによるエンドツーエンド生成品質を評価する。
論文 参考訳(メタデータ) (2026-04-02T07:53:40Z) - Test-Time Strategies for More Efficient and Accurate Agentic RAG [58.44913384057518]
Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。
このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。
本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
論文 参考訳(メタデータ) (2026-03-12T19:18:59Z) - Towards Global Retrieval Augmented Generation: A Benchmark for Corpus-Level Reasoning [50.27838512822097]
我々は,グローバルRAG機能を評価するために設計された最初のベンチマークであるGlobalQAを紹介する。
我々は,チャンクレベルの検索によって構造的コヒーレンスを保存するマルチツール協調フレームワークであるGlobalRAGを提案する。
Qwen2.5-14Bモデルでは、GlobalRAGは最強のベースラインである1.51 F1と比較して6.63 F1を達成した。
論文 参考訳(メタデータ) (2025-10-30T07:29:14Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Two-Stage Quranic QA via Ensemble Retrieval and Instruction-Tuned Answer Extraction [0.4349640169711269]
Quranic Question Answeringは、古典アラビア語の言語的複雑さと宗教テキストの意味的な豊かさによって、ユニークな課題を提起している。
本稿では,経路抽出と解答抽出の両方に対処する新しい2段階フレームワークを提案する。
提案手法では, MAP@10が0.3128, MRR@10が0.5763, pAP@10が0.669である。
論文 参考訳(メタデータ) (2025-08-09T12:37:19Z) - Optimized Quran Passage Retrieval Using an Expanded QA Dataset and Fine-Tuned Language Models [0.0]
Qur'an QA 2023の共有タスクデータセットには、弱いモデル検索を伴う限られた数の質問があった。
251の質問を含む最初のデータセットをレビューし、629の質問に拡張し、質問の多様化と修正を行った。
AraBERT、RoBERTa、CAMeLBERT、AraELECTRA、BERTなど、微調整されたトランスモデルを実験する。
論文 参考訳(メタデータ) (2024-12-16T04:03:58Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Query Expansion Using Contextual Clue Sampling with Language Models [69.51976926838232]
本稿では,実効的なフィルタリング戦略と検索した文書の融合の組み合わせを,各文脈の生成確率に基づいて提案する。
我々の語彙マッチングに基づくアプローチは、よく確立された高密度検索モデルDPRと比較して、同様のトップ5/トップ20検索精度と上位100検索精度を実現する。
エンド・ツー・エンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクト・マッチのスコアが最も高い。
論文 参考訳(メタデータ) (2022-10-13T15:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。