論文の概要: Who Checks the Citations? Benchmarking Legal Hallucination Detection
- arxiv url: http://arxiv.org/abs/2606.21155v1
- Date: Fri, 19 Jun 2026 06:47:31 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:33:17.4948
- Title: Who Checks the Citations? Benchmarking Legal Hallucination Detection
- Title(参考訳): サイテーションを誰がチェックするか : 法的な幻覚検出のベンチマーク
- Authors: Patty Liu, Dominik Stammbach, Peter Henderson,
- Abstract要約: 司法、裁判官、プロセパフォーマーは、ますますAIを使って法的文書の草案を作成するが、これらのツールは引用をしばしば作っている。
本研究は,幻覚を自動的に検出することで,AIに基づくシステムがこれらの誤りを軽減できるかどうかを評価する。
本稿では,実際の裁判所提出書類に基づいた法的な引用幻覚の分類法を提案し,インジェクトエラーを含む1,300件の簡単な抜粋のデータセットを提案する。
- 参考スコア(独自算出の注目度): 7.592193069681834
- License:
- Abstract: Attorneys, judges, and pro se filers increasingly use AI to draft legal documents, yet these tools frequently fabricate citations. Despite predictions that newer models would hallucinate less or that court sanctions would deter negligent filers, we found over 1,000 filings containing fabricated citations -- with this number growing year-over-year. This study evaluates whether AI-based systems can mitigate these errors by automatically detecting hallucinations. We propose a taxonomy of legal citation hallucinations grounded in actual court filings and introduce a dataset of 1,300 brief excerpts containing injected errors. Benchmarking five models in agentic and non-agentic settings reveals that while the latest iterations perform better -- GPT-5 achieves 82.8% recall and a 60.5% F1 score in an agentic framework -- all models struggle with subtle error categories. Agentic verification remains resource-intensive, with GPT-5 averaging 16.9 steps per excerpt. Furthermore, restricted information access limits the efficacy of even the best agents. This gap creates policy concerns, as it disadvantages both AI systems and litigants who lack subscriptions to commercial legal databases. Together, our dataset, tools, and policy recommendations provide a foundation for building and auditing reliable legal citation checking tools.
- Abstract(参考訳): 司法、裁判官、プロセパフォーマーは、ますますAIを使って法的文書の草案を作成するが、これらのツールは引用をしばしば作っている。
新たなモデルが幻覚を減らしたり、裁判所の制裁がネグリジェント・ファイリングを抑えるという予測にもかかわらず、製造された引用を含む1000件以上の書類が見つかった。
本研究は,幻覚を自動的に検出することで,AIに基づくシステムがこれらの誤りを軽減できるかどうかを評価する。
本稿では,実際の裁判所提出書類に基づいた法的な引用幻覚の分類法を提案し,インジェクトエラーを含む1,300件の簡単な抜粋のデータセットを提案する。
GPT-5は82.8%のリコールと60.5%のF1スコアを達成したが、すべてのモデルは微妙なエラーカテゴリに悩まされている。
エージェントによる検証は資源集約的であり、GPT-5は抜粋あたり平均16.9ステップである。
さらに、制限された情報アクセスは、最高のエージェントでさえ有効性を制限する。
このギャップは、商用の法律データベースのサブスクリプションを欠いているAIシステムと訴訟員の両方に不利な政策上の懸念をもたらす。
データセット、ツール、ポリシーレコメンデーションとともに、信頼できる法的引用チェックツールの構築と監査の基盤を提供します。
関連論文リスト
- SynCred-Bench: Benchmarking Synthetic Credibility in AI-Generated Visual Misinformation [82.22252244442744]
SynCRED-Benchは、信頼できる6つのカテゴリと7つのきめ細かい循環スタイルでバランスをとる、600個のAI生成の誤情報画像のベンチマークである。
5%の偽陽性レートの制約の下で、15個のMLLMは10.5%の真正レート(TPR)しか達成せず、オープンソースのAIGC検出器は5%以下である。
また、ヒトのアノテーターは合成信頼性の同定にも苦労し、TPRはわずか63%に達した。
論文 参考訳(メタデータ) (2026-06-02T08:57:38Z) - Citation Grounding: Detecting and Reducing LLM Citation Hallucinations via Legal Citation Graphs [0.0]
5つのシステムにまたがる100のウクライナの法的クエリに関する実証的評価
13-21%の励起が幻覚し、励起精度は0.791から0.873である。
人間のアノテーションを使わずに幻覚を減らすために,Citation Grounding DPOを導入する。
論文 参考訳(メタデータ) (2026-05-30T21:22:47Z) - HalluCiteChecker: A Lightweight Toolkit for Hallucinated Citation Detection and Verification in the Era of AI Scientists [58.87954687016989]
HalluCiteCheckerは、科学論文の幻覚的引用を検出し検証するためのツールキットである。
私たちのコードはGitHubのApache 2.0ライセンスでリリースされており、PyPI経由でインストール可能なパッケージとして配布されています。
論文 参考訳(メタデータ) (2026-04-29T16:01:42Z) - CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era [51.63024682584688]
大規模言語モデル (LLM) は新たなリスクを導入している。
本稿では,科学文献における幻覚的引用のための総合的なベンチマークおよび検出フレームワークについて紹介する。
我々のフレームワークは、精度と解釈可能性の両方において、先行手法を著しく上回っている。
論文 参考訳(メタデータ) (2026-02-26T19:17:39Z) - Compound Deception in Elite Peer Review: A Failure Mode Taxonomy of 100 Fabricated Citations at NeurIPS 2025 [0.0]
大規模言語モデル (LLM) は学術的著作においてますます使われてきているが、それらが存在しない情報源への引用を生成することで、しばしば幻覚を引き起こす。
本研究は,2025年ニューラル情報処理システム学会が受理した論文に現れる100個のAI生成幻覚励起を解析する。
1紙あたり3-5人の専門家によるレビューにもかかわらず、これらの引用は検出を回避し、53の論文に現れた。
論文 参考訳(メタデータ) (2026-02-05T17:43:35Z) - The 17% Gap: Quantifying Epistemic Decay in AI-Assisted Survey Papers [0.0]
『廃紙』は既知の人工物であるが、有効な引用鎖の系統的な劣化はいまだに不明である。
我々は,2024年9月から2026年1月までに発行された人工知能に関する50の最近の調査論文の法医学的な監査を行った。
我々は、攻撃的な法医学的回復にもかかわらず、いかなるデジタルオブジェクトにも解決できない、永続的な17.0%のファントムレートを検出する。
論文 参考訳(メタデータ) (2026-01-24T12:00:55Z) - HalluGraph: Auditable Hallucination Detection for Legal RAG Systems via Knowledge Graph Alignment [0.0]
本稿では,コンテキスト,クエリ,応答から抽出した知識グラフ間の構造的アライメントを通じて幻覚を定量化するグラフ理論フレームワークであるHaluGraphを紹介する。
提案手法は,文中のエンティティが元文書に現れるかどうかを計測し,コンテキストによってアサートされた関係がサポートされていることを検証した,有界で解釈可能なメトリクスをtextitEntity Grounding (EG) に生成する。
論文 参考訳(メタデータ) (2025-12-01T13:31:06Z) - Security Challenges in AI Agent Deployment: Insights from a Large Scale Public Competition [101.86739402748995]
44の現実的なデプロイメントシナリオを対象とした,22のフロンティアAIエージェントを対象にしています。
Agent Red Teamingベンチマークを構築し、19の最先端モデルで評価します。
私たちの発見は、今日のAIエージェントの重要かつ永続的な脆弱性を浮き彫りにしたものです。
論文 参考訳(メタデータ) (2025-07-28T05:13:04Z) - CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation [44.67578050648625]
我々は、大規模なオープンソース法定コーパスを、情報検索(IR)と検索拡張生成(RAG)をサポートするデータセットに変換する。
このデータセットCLERCは、(1)法的な分析のための対応する引用を見つけ、(2)これらの引用のテキストを、推論目標を支持するコジェント分析にコンパイルする能力に基づいて、モデルのトレーニングと評価のために構築される。
論文 参考訳(メタデータ) (2024-06-24T23:57:57Z) - Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools [32.78336381381673]
本稿では,AI駆動型法律研究ツールの事前登録による実証評価について報告する。
LexisNexis(Lexis+ AI)とThomson Reuters(Westlaw AI-Assisted ResearchとAsk Practical Law AI)によるAI研究ツールは、それぞれ17%から33%の時間で幻覚化している。
それは、AIのアウトプットを監督し検証する法的専門家の責任を知らせる証拠を提供する。
論文 参考訳(メタデータ) (2024-05-30T17:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。