Fugu-MT 論文翻訳(概要): Legal Reasoning Is Not Lawyering: Rethinking Legal Benchmarks for Pro Se Access to Justice

論文の概要: Legal Reasoning Is Not Lawyering: Rethinking Legal Benchmarks for Pro Se Access to Justice

arxiv url: http://arxiv.org/abs/2606.23716v1
Date: Tue, 16 Jun 2026 14:19:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.553619
Title: Legal Reasoning Is Not Lawyering: Rethinking Legal Benchmarks for Pro Se Access to Justice
Title（参考訳）: 法的根拠は法律ではなく、法律の基準を再考する
Authors: Andrew Lou, David Shin,
Abstract要約: 法的なAIベンチマーク研究は、大きな言語モデルが正義へのアクセスを改善するという仮定をしばしば呼び起こす。現在のベンチマークでは、すでに法律専門家が事前処理済みのインプットに対する法的推論を評価するため、この仮定を支持する能力がないと我々は主張する。私たちは、プロセプティックなインプットの下でロバスト性を直接測定する法的なベンチマークを要求して、法的AIに関するアクセシビリティー・トゥ・ジャスティス・クレームが実証的にテスト可能であると結論付けています。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Legal AI benchmark research frequently invokes the assumption that large language models can improve access to justice, including for people who cannot access lawyers in order to understand and exercise their legal rights. We argue that current benchmarks are not equipped to support this assumption because they evaluate legal reasoning over inputs that have already been preprocessed by legal experts, which measures the upper bound of model performance. Access to justice depends on a lower bound: how models perform when inputs come from pro se litigants, whose prompts may contain noisy narratives, buried facts, omissions, folk-legal assumptions, and surface-level errors. These degradations are comparable to conditions under which LLMs are known to degrade in the general machine learning literature, including long-context sensitivity, underspecification, hallucination, and typographical perturbations. We connect evidence from pro se literature with this body of machine learning research and present a small perturbation experiment on LEXam, a legal benchmark, to illustrate the gap between these two bounds. If model development continues to focus on benchmarks that measure only the upper bound, this gap may remain hidden or even widen. We conclude by calling for legal benchmarks that directly measure robustness under pro se-like inputs so that access-to-justice claims about legal AI can become empirically testable.
Abstract（参考訳）: 法律AIベンチマークの研究は、大きな言語モデルが司法権を理解して行使するために弁護士にアクセスできない人々を含む、正義へのアクセスを改善するという仮定をしばしば呼び起こしている。モデル性能の上限を測る法律専門家による事前処理済みのインプットに対する法的推論を評価するため、現在のベンチマークではこの仮定を裏付ける能力がないと我々は主張する。正義へのアクセスは下限に依存する: モデルがプロセリガントから入力を受けたとき、そのプロンプトはノイズの多い物語、埋没した事実、省略、民法的な仮定、表面レベルの誤りを含む可能性がある。これらの劣化は、LLMが長文の感度、不特定性、幻覚、そしてタイポグラフィーの摂動を含む一般的な機械学習の文献で分解されることが知られている条件に匹敵する。プロセ文献から得られた証拠をこの機械学習研究の本体と結びつけ、法的なベンチマークであるLEXamで小さな摂動実験を行い、この2つの境界のギャップを例示する。モデル開発が上位境界のみを測定するベンチマークに焦点を絞っている場合、このギャップは隠されるか、さらに広がる可能性がある。私たちは、プロセプティックなインプットの下でロバスト性を直接測定する法的なベンチマークを要求して、法的AIに関するアクセシビリティー・トゥ・ジャスティス・クレームが実証的にテスト可能であると結論付けています。

関連論文リスト

LegalOne: A Family of Foundation Models for Reliable Legal Reasoning [54.57434222018289]
我々は、中国の法律ドメインに特化された基礎モデルのファミリーであるLegalOneを紹介します。 LegalOneは、法的推論をマスターするために設計された包括的な3フェーズパイプラインを通じて開発されている。 LegalOneの重み付けとLegalKit評価フレームワークを公開して、Legal AIの分野を前進させます。
論文参考訳（メタデータ） (2026-01-31T10:18:32Z)
CaseFacts: A Benchmark for Legal Fact-Checking and Precedent Retrieval [5.305110876082343]
CaseFactsは、アメリカ合衆国最高裁判所の判例に対する法的主張を検証するためのベンチマークである。データセットは、Supported、Refuted、Overruledに分類される6,294のクレームで構成されている。
論文参考訳（メタデータ） (2026-01-23T23:41:46Z)
PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice [67.71760070255425]
本稿では,大規模言語モデル (LLM) を評価するための実践的ベンチマークであるPLawBenchを紹介する。 PLawBenchは、13の実践的な法的シナリオにわたる850の質問で構成され、各質問には専門家が設計した評価ルーブが伴っている。人間の専門的判断に合わせたLLMに基づく評価器を用いて,10種類の最先端のLLMを評価した。
論文参考訳（メタデータ） (2026-01-23T11:36:10Z)
Better Call CLAUSE: A Discrepancy Benchmark for Auditing LLMs Legal Reasoning Capabilities [15.35489310097019]
CLAUSE は LLM の法的な推論の脆弱性を評価するために設計された第一種ベンチマークである。我々の研究は、法的AIにおけるそのような推論失敗を特定し、修正する道筋を概説している。
論文参考訳（メタデータ） (2025-11-01T00:51:21Z)
Not ready for the bench: LLM legal interpretation is unstable and out of step with human judgments [2.8622281002418357]
近年の学問では、法的実践者が解釈ツールキットに大きな言語モデル(LLM)を追加することが提案されている。この研究は、法学者や連邦判事が最近実施したLSM解釈に対する実証的な議論を提供する。我々の英語調査は、モデルが安定した解釈判断を提供していないことを示している。
論文参考訳（メタデータ） (2025-10-29T10:21:25Z)
GLARE: Agentic Reasoning for Legal Judgment Prediction [60.13483016810707]
法学分野では、法的判断予測(LJP)がますます重要になっている。既存の大規模言語モデル (LLM) には、法的な知識が不足しているため、推論に不十分な重大な問題がある。 GLAREは,異なるモジュールを呼び出し,重要な法的知識を動的に獲得するエージェント的法的推論フレームワークである。
論文参考訳（メタデータ） (2025-08-22T13:38:12Z)
LawLLM: Law Large Language Model for the US Legal System [43.13850456765944]
我々は,米国法域に特化して設計されたマルチタスクモデルであるLawLLM(Law Large Language Model)を紹介する。類似症例検索(SCR)、PCR(Precedent Case Recommendation)、LJP(Lawal Judgment Prediction)においてLawLLMが優れているそこで本研究では,各タスクに対して,生の法定データをトレーニング可能な形式に変換する,カスタマイズされたデータ前処理手法を提案する。
論文参考訳（メタデータ） (2024-07-27T21:51:30Z)
DELTA: Pre-train a Discriminative Encoder for Legal Case Retrieval via Structural Word Alignment [55.91429725404988]
判例検索のための識別モデルであるDELTAを紹介する。我々は浅層デコーダを利用して情報ボトルネックを作り、表現能力の向上を目指しています。本手法は, 判例検索において, 既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-03-27T10:40:14Z)
Prototype-Based Interpretability for Legal Citation Prediction [16.660004925391842]
我々は、前例と立法規定の両方に関して、弁護士の思考過程と平行してタスクを設計する。最初の実験結果から,法の専門家のフィードバックを得て,対象の引用予測を洗練する。我々は,弁護士が使用する決定パラメータに固執しながら,高い性能を達成し,解釈可能性を高めるためのプロトタイプアーキテクチャを導入する。
論文参考訳（メタデータ） (2023-05-25T21:40:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。