論文の概要: Not All Claims Are Equally Risky: FACTOR for Adaptive Verification in Factual Long-Form Generation
- arxiv url: http://arxiv.org/abs/2606.22474v1
- Date: Sun, 21 Jun 2026 12:34:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:06:41.220338
- Title: Not All Claims Are Equally Risky: FACTOR for Adaptive Verification in Factual Long-Form Generation
- Title(参考訳): すべてのクレームが等しく危険であるとは限らない:FACTORによるFactual Long-Form Generationの適応検証
- Authors: Areeba Hassan, Arooj Kausar, Syeda Kisaa Fatima, Gibrail Islam, Mehwish Fatima,
- Abstract要約: クレームレベルの不確実性に応じて検証基準を適用する推論時間モデルであるtextitFACTOR(textitFactuality-Oriented Risk-Aware Verification)を提案する。
FACTORは、不確実性推定、適応言語推論検証、および最も必要となる検証作業を割り当てるために再ランク付けされた候補を組み合わせる。
本研究は,textitFACTORの長文生成における実写性向上に有効かつモデルに依存しない性能を示す。
- 参考スコア(独自算出の注目度): 1.7243216387069673
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) generate fluent long-form text, however, often add unsupported factual claims. Existing verification techniques improve factuality by grounding generation in external evidence. However, the same verification policy usually applies to all claims despite being differences in hallucination risks. We propose \textit{FACTOR} (\textit{FACTuality-Oriented Risk-aware Verification}), an inference-time model that adapts verification criteria according to claim-level uncertainty. FACTOR combines uncertainty estimation, adaptive language inference verification, and candidate re-ranking to allocate verification effort where it is most needed. We evaluate \textit{FACTOR} on FactScore benchmark showing that adaptive verification improves factuality while reducing verification cost simultaneously. We further perform different ablation studies to identify the primary driver of these gains. Our results show the effective and model-agnostic performance of \textit{FACTOR} for improving factuality in long-form generation.
- Abstract(参考訳): 大規模言語モデル (LLM) は、しばしば事実上の主張を付加するが、流動的な長文を生成する。
既存の検証技術は、外部証拠の生成を基礎にして事実性を向上する。
しかし、同じ検証方針は幻覚リスクの違いにもかかわらず、すべての主張に適用される。
本稿では, クレームレベルの不確実性に応じて検証基準を適応させる推論時間モデルである \textit{FACTOR} (\textit{Factuality-Oriented Risk-aware Verification} を提案する。
FACTORは、不確実性推定、適応言語推論検証、および最も必要となる検証作業を割り当てるために再ランク付けされた候補を組み合わせる。
FactScoreベンチマーク上でのtextit{FACTOR} の評価により,適応的検証は検証コストを同時に低減しながら事実性を向上することを示す。
さらに、これらの利得の主要因を特定するために、異なるアブレーション研究を行う。
本研究は,長文生成における実写性向上のために,textit{FACTOR} の有効性とモデルに依存しない性能を示す。
関連論文リスト
- LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration [7.51755942515969]
大型言語モデル(LLM)は、しばしば長文生成において幻覚を引き起こす。
既存のアプローチは主にポストホックリビジョンや強化学習を通じて事実性を改善する。
本稿では,LCMに請求レベルでの不確実性について推論するように教えることにより,長期的事実性を改善するフレームワークであるCUREを提案する。
論文 参考訳(メタデータ) (2026-04-13T20:38:36Z) - Preventing the Collapse of Peer Review Requires Verification-First AI [49.995126139461085]
我々は、真理結合、すなわち、過度に科学的真理をトラックする場所のスコアの厳密さを提案する。
プロキシ・ソブリン評価に向けた相転移を駆動する2つの力の形式化を行う。
論文 参考訳(メタデータ) (2026-01-23T17:17:32Z) - Towards Comprehensive Stage-wise Benchmarking of Large Language Models in Fact-Checking [64.97768177044355]
大規模言語モデル(LLM)は、現実のファクトチェックシステムにますます多くデプロイされている。
FactArenaは、完全に自動化されたアリーナスタイルの評価フレームワークである。
本研究では,静的クレーム検証精度とエンドツーエンドのファクトチェック能力の相違点を明らかにした。
論文 参考訳(メタデータ) (2026-01-06T02:51:56Z) - Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation [108.13261761812517]
本稿では,RAG出力における幻覚検出の新しい手法であるFRANQ(Fithfulness-based Retrieval Augmented Uncertainty Quantification)を紹介する。
本稿では,事実性と忠実性の両方に注釈を付したQAデータセットを提案する。
論文 参考訳(メタデータ) (2025-05-27T11:56:59Z) - FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Robust Claim Verification Through Fact Detection [17.29665711917281]
我々の新しいアプローチであるFactDetectは、大規模言語モデル(LLM)を利用して、証拠から簡潔な事実文を生成する。
生成された事実は、クレームとエビデンスと組み合わせられる。
提案手法は,F1スコアにおいて,教師付きクレーム検証モデルにおいて,15%の競合結果を示す。
論文 参考訳(メタデータ) (2024-07-25T20:03:43Z) - Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification [116.77055746066375]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。