論文の概要: Explicit Evidence Grounding via Structured Inline Citation Generation
- arxiv url: http://arxiv.org/abs/2606.07130v1
- Date: Fri, 05 Jun 2026 10:42:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.694867
- Title: Explicit Evidence Grounding via Structured Inline Citation Generation
- Title(参考訳): 構造的インライン・サイテーション・ジェネレーションによる明示的エビデンス・グラウンドディング
- Authors: Anar Yeginbergen, Amelie Wührl, Anna Rogers, Rodrigo Agerri,
- Abstract要約: FullCiteは、各クレームをソースドキュメントとリンクし、エビデンスをサポートする構造化インライン引用を生成するフレームワークである。
文献レベルの正しさ,証拠の特定範囲,クレームレベルの忠実さの3つの側面に沿って,引用品質と忠実度を評価する。
- 参考スコア(独自算出の注目度): 22.27784103991804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become more widely adopted, the demand for factual and faithful generation grows. Properly attributing information through citations becomes, therefore, crucial. This work introduces FullCite, a framework that, in contrast to most previous works, generates structured inline citations linking each claim to both its source document and supporting evidence. FullCite proposes three strategies to inline citation generation: prompt-based generation, constrained decoding over a citation grammar, and posthoc span alignment. Using three question answering benchmarks, namely, ASQA, BioASQ, and ExpertQA, we assess citation quality and faithfulness along three dimensions: document-level correctness, evidence span identification, and claim-citation faithfulness. Our evaluation shows that while LLMs are generally effective at identifying relevant documents, they struggle to identify the precise supporting spans within them. This gap suggests that achieving faithful attributed QA will require research to place greater emphasis on precise evidence span identification.
- Abstract(参考訳): AIシステムがより広く採用されるにつれて、事実と忠実な世代への需要が増大する。
引用による情報の適切な帰属が重要となる。
この研究は、以前のほとんどの作業とは対照的にFullCiteというフレームワークを導入し、各クレームをソースドキュメントとリンクし、エビデンスをサポートする構造的なインライン引用を生成する。
FullCiteは、引用生成をインライン化する3つの戦略を提案している。
我々は,ASQA,BioASQ,ExpertQAの3つの質問応答ベンチマークを用いて,文書レベルの正しさ,証拠の特定,クレーム引用忠実さの3次元に沿った引用品質と忠実度を評価する。
評価の結果, LLMは関連文書の特定に有効であるが, その中の正確なサポート範囲の特定に苦慮していることがわかった。
このギャップは、忠実に評価されたQAを達成するためには、正確な証拠を識別する研究が必要であることを示唆している。
関連論文リスト
- CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - SemanticCite: Citation Verification with AI-Powered Full-Text Analysis and Evidence-Based Reasoning [0.0]
本稿では,全文ソース解析による引用精度の検証を行うAIシステムであるSemanticCiteを紹介する。
提案手法は,複数の検索手法と,ニュアンスド・クレーム・ソース関係を抽出する4クラス分類システムを組み合わせたものである。
我々は、詳細なアライメント、機能分類、セマンティックアノテーション、およびバイオロメトリメタデータを備えた1000以上の引用からなる包括的なデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2025-11-20T10:05:21Z) - VeriCite: Towards Reliable Citations in Retrieval-Augmented Generation via Rigorous Verification [107.75781898355562]
証拠を厳格に検証し,回答の帰属性を高めるために設計された,VeriCiteと呼ばれる新しいフレームワークを紹介する。
我々は,5つのオープンソースLCMと4つのデータセットを対象とした実験を行い,VeriCiteが回答の正しさを維持しつつ,引用品質を大幅に向上できることを実証した。
論文 参考訳(メタデータ) (2025-10-13T13:38:54Z) - Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [44.31597857713689]
最初の段階でActive Indexingを導入し、一般化可能なソースアンコールバインディングを作成します。
Qwen-2.5-7B&3Bの実験は、アクティブインデックスがパッシブインデックスのベースラインを一貫して上回っていることを示している。
内部の引用は、モデルを検索ノイズに対してより堅牢にすることで、外部の引用を補完する。
論文 参考訳(メタデータ) (2025-06-21T04:48:05Z) - ALiiCE: Evaluating Positional Fine-grained Citation Generation [54.19617927314975]
本稿では,微細な引用生成のための最初の自動評価フレームワークであるALiiCEを提案する。
我々のフレームワークはまず、文のクレームを依存性分析によって原子クレームに解析し、次に原子クレームレベルでの引用品質を計算する。
複数大言語モデルの2つの長文QAデータセット上での位置的きめ細かな引用生成性能を評価する。
論文 参考訳(メタデータ) (2024-06-19T09:16:14Z) - Verifiable Generation with Subsentence-Level Fine-Grained Citations [13.931548733211436]
検証可能な生成には、出力をサポートするソースドキュメントを引用するために、大きな言語モデルが必要である。
先行研究は主に文レベルの引用の生成を目標としており、引用された情報源によって文のどの部分が裏付けられているかの特異性が欠如している。
本研究は, サブ文レベルのきめ細かな引用による生成を検証し, 引用元が支持する生成コンテンツのより正確な位置について検討する。
論文 参考訳(メタデータ) (2024-06-10T09:32:37Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。