論文の概要: SafeLLM: Extraction as a Hallucination-Resistant Alternative to Rewriting in Safety-Critical Settings
- arxiv url: http://arxiv.org/abs/2606.12897v1
- Date: Thu, 11 Jun 2026 04:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.584613
- Title: SafeLLM: Extraction as a Hallucination-Resistant Alternative to Rewriting in Safety-Critical Settings
- Title(参考訳): SafeLLM: 安全臨界設定における書き換えに対する幻覚耐性の代替手段としての抽出
- Authors: Julia Ive, Felix Jozsa, Evridiki Georgaki, Nabeel Sheikh, Emma Cattell, Nick Jackson, Paulina Bondaronek, Ciaran Scott Hill, Richard Dobson,
- Abstract要約: 自由形式の書き換えに依存する検索拡張世代システム(RAG)は、完全性と簡潔性の間の幻覚と不安定なトレードオフを導入することができる。
精度、リコール、安全性をドキュメントタイプとモデルスケールでバランスさせる戦略を比較します。
局所的なNHS急性診療・腫瘍学ガイドラインや英国全土のNICEガイドラインなど,様々な長さと構造を持つ文書を用いて実験を行った。
- 参考スコア(独自算出の注目度): 2.7975477743127346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to access organisational documentation, including standard operating procedures (SOPs), HR policies and institutional guidelines. However, retrieval-augmented generation (RAG) systems that rely on free-form rewriting can introduce hallucinations and unstable trade-offs between completeness and conciseness, particularly in safety- and compliance-critical settings. Objectives: To evaluate extraction as a hallucination-resistant alternative to rewriting-based RAG and compare strategies that balance precision, recall and safety across document types and model scales. Methods: We compare multiple prompting strategies, including line-number-based source selection, extraction of relevant guideline sentences with explicit safety annotations, and a multi-stage pipeline that refines draft answers using supporting evidence from source guidelines. Experiments are conducted on documents of varying length and structure, including local NHS acute care and oncology guidelines and UK-wide NICE guidelines, using both frontier-scale and locally deployable models. Performance is assessed using automatic metrics and human expert evaluation of relevance and completeness. Results: Line-number selection achieves the strongest results, outperforming direct copying and safety-focused strategies across both large and small models while maintaining high term recall (up to 95%) and close alignment with source text. Safety-oriented approaches improve precision but introduce systematic omissions, while multi-stage filtering further amplifies this trade-off. Performance varies with document structure: line-based extraction excels in protocol-like content, whereas alternative strategies perform better on more verbose documents (up to 97% term recall).
- Abstract(参考訳): 大規模言語モデル(LLM)は、標準的な運用手順(SOP)、人事方針、制度ガイドラインなど、組織のドキュメントへのアクセスにますます使われています。
しかし、自由形式の書き換えに依存する検索強化世代(RAG)システムは、特に安全性とコンプライアンスクリティカルな設定において、完全性と簡潔性の間の幻覚や不安定なトレードオフをもたらす可能性がある。
目的:リライトベースのRAGに代わる幻覚耐性の代替として抽出を評価し,文書タイプやモデルスケール間の精度,リコール,安全性のバランスをとる戦略を比較する。
方法: 行数に基づくソース選択, 明確な安全アノテーションによる関連ガイドライン文の抽出, および, 情報源ガイドラインからのエビデンスを援用して, 答案を洗練する多段階パイプラインなど, 複数のプロンプト戦略を比較した。
局所的なNHS急性期診療ガイドラインや英国全体のNICEガイドラインなど,フロンティアスケールおよび局所展開可能なモデルを用いて,様々な長さと構造を持つ文書上で実験を行った。
パフォーマンスは、自動測定と人間専門家による妥当性と完全性の評価によって評価される。
結果: 行数選択は, 高速リコール(95%まで)とソーステキストとの密接な整合性を維持しながら, 大型モデルと小型モデルの両方において, 直接複製および安全性を重視した戦略を上回り, 最強の結果を得る。
安全指向のアプローチは精度を向上するが、体系的な省略を導入し、マルチステージフィルタリングはこのトレードオフをさらに増幅する。
行ベースの抽出はプロトコルライクなコンテンツに優れ、代替戦略はより冗長なドキュメント(最大97%の項リコール)でパフォーマンスが向上する。
関連論文リスト
- DocSeeker: Structured Visual Reasoning with Evidence Grounding for Long Document Understanding [63.257540233507626]
本稿では、構造化解析、局所化、推論のワークフローを実行するためにモデルを必要とするパラダイムを提案する。
ショートページトレーニングから超長文書への堅牢な一般化を示し、視覚的検索・拡張生成システムと自然に相乗効果を示す。
論文 参考訳(メタデータ) (2026-04-14T14:39:26Z) - Adaptive Chunking: Optimizing Chunking-Method Selection for RAG [0.0]
文書ごとに最適なチャンキング戦略を選択するフレームワークであるAdaptive Chunkingを紹介します。
法、技術、社会科学領域にまたがる多種多様なコーパスにおいて、我々の計量マージ適応法は、下流RAGの性能を著しく向上させる。
論文 参考訳(メタデータ) (2026-03-26T11:20:52Z) - Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents [0.0]
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLM) の制約に対処するフレームワークとして登場した。
本稿では,4つのチャンキング戦略における性能差を定量化する実証的研究について述べる。
論文 参考訳(メタデータ) (2026-03-25T17:35:24Z) - Grounding Long-Context Reasoning with Contextual Normalization for Retrieval-Augmented Generation [57.97548022208733]
キー値抽出における表面的選択が精度と安定性のシフトを引き起こすことを示す。
生成前の文脈表現を適応的に標準化する戦略であるコンテキスト正規化を導入する。
論文 参考訳(メタデータ) (2025-10-15T06:28:25Z) - Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods [0.0]
本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。
オープンソースのモデルを用いて,質問対と回答対の包括的データセットを生成する新しい評価手法を提案する。
評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。
論文 参考訳(メタデータ) (2024-09-13T02:08:47Z) - Balancing Diversity and Risk in LLM Sampling: How to Select Your Method and Parameter for Open-Ended Text Generation [60.493180081319785]
本稿では,各復号ステップにおける多様性とリスクのトレードオフを考慮し,トラクションサンプリング手法のキャパシティを推定する体系的手法を提案する。
本研究は,既存のトラクションサンプリング手法を総合的に比較し,パラメータ選択のための実用的なユーザガイドとして機能する。
論文 参考訳(メタデータ) (2024-08-24T14:14:32Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。