論文の概要: LAUKIN: A Multi-jurisdictional Common Law Contract Dataset
- arxiv url: http://arxiv.org/abs/2606.13184v1
- Date: Thu, 11 Jun 2026 10:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.737081
- Title: LAUKIN: A Multi-jurisdictional Common Law Contract Dataset
- Title(参考訳): LAUKIN: 多国間共通法契約データセット
- Authors: Amrita Singh, Aditya Joshi, Jiaojiao Jiang, Hye-young Paik, May Fong Cheong,
- Abstract要約: LAUKINは、法的な等価性のためにラベル付けされた条項ペアのデータセットである。
データセットは、8つの契約タイプにまたがる204の契約から14,727の条項ペアで構成されている。
我々は、4つのテクニックにまたがる12のモデルを評価し、65.11%の最高のマクロF1を達成する。
- 参考スコア(独自算出の注目度): 9.111503302897676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multinational companies increasingly require cross-jurisdictional contract review, yet existing legal NLP datasets are largely restricted to a single jurisdiction. We introduce LAUKIN (Legal equivalence dataset of Australia, UK, and INdia), a dataset of clause pairs (AU-UK, UK-IN, IN-AU) labelled for boolean legal equivalence. We develop a novel multi-stage retrieval and reranking pipeline to construct the initial clause pair mapping, with a subset of clause pairs subsequently annotated by legal experts as Equivalent or Not Equivalent. The dataset comprises 14,727 clause pairs from 204 contracts across 8 agreement types, of which 3,000 are manually labelled: 900 train, 600 dev, and 1,500 test. We evaluate 12 models across 4 techniques, achieving a best macro-F1 of 65.11%, establishing LAUKIN as a challenging benchmark. Results reveal that, despite shared legal heritage, drafting conventions diverge significantly across jurisdictions, making cross-jurisdictional equivalence classification non-trivial. LAUKIN also includes 11,727 unlabelled training pairs to support future semi-supervised learning research in legal NLP.
- Abstract(参考訳): 多国籍企業はますます、断続的な契約審査を必要としているが、既存の法的NLPデータセットは、主に単一の管轄区域に限られている。
本稿では,オーストラリア,イギリス,インドにおけるLegal equivalence dataset(LAUKIN)を紹介し,ブール法定等価性を示す条項ペア(AU-UK,UK-IN,IN-AU)のデータセットについて紹介する。
そこで我々は,初期節対マッピングを構築するための新しい多段階探索パイプラインを開発し,その後,法的専門家によって同値あるいは同値でないとして注釈付けされた節対のサブセットを構築した。
データセットは、8つの契約タイプにまたがる204の契約から14,727の条項ペアで構成されており、そのうち3000は手作業でラベル付けされている。
我々は、4つのテクニックにまたがる12のモデルを評価し、65.11%の最高のマクロF1を達成し、LAUKINを挑戦的なベンチマークとして確立した。
その結果、法的遺産が共有されているにもかかわらず、起草の慣行は管轄地域によって大きく異なっており、違憲同値分類を非自明にしていることが明らかとなった。
LAUKINはまた、法的なNLPにおける将来の半教師あり学習研究を支援するために、11,727の未学習のトレーニングペアを含んでいる。
関連論文リスト
- Multi-Legal-Bench: Evaluating LLMs on Legal Reasoning Across Jurisdictions, Languages, and Legal Traditions [0.0]
Multi-Legal-Benchは、6か国で同一のタスクを評価する最初の横断的法定ベンチマークである。
ベンチマークでは、裁判所型分類、判決形式分類、ケースアウトカム予測、法的規範抽出、原因カテゴリー予測の5つのタスクを定義している。
ゼロショットと3ショットのプロンプトでAWS Bedrock経由で7つのフロンティアLSMを評価し、スケーリング分析のために4つのスモール/メジウムモデル(3-12B)を追加しました。
論文 参考訳(メタデータ) (2026-05-28T10:31:37Z) - LEXam: Benchmarking Legal Reasoning on 340 Law Exams [76.3521146499006]
textscLEXamは,法科116科の法科試験を対象とする340件の法科試験を対象とする,新しいベンチマークである。
このデータセットは、英語とドイツ語で4,886の法試験質問で構成されており、その中には2,841の長文のオープンエンド質問と2,045の多重選択質問が含まれている。
この結果から,モデル間の差分化におけるデータセットの有効性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T08:48:12Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - LegalPro-BERT: Classification of Legal Provisions by fine-tuning BERT Large Language Model [0.0]
契約分析は、合意の範囲内で重要な規定及び段落の識別及び分類を必要とする。
LegalPro-BERTはBERTトランスフォーマーアーキテクチャモデルであり、法定条項の分類処理を効率的に行うために微調整を行う。
論文 参考訳(メタデータ) (2024-04-15T19:08:48Z) - PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation? [3.9018931027384056]
パラマヌ・アイン(Paramanu-Ayn)は、インドの訴訟文書に特化して訓練された法律言語モデルのコレクションである。
Paramanu-Aynは1つのGPU上でわずか185時間、コンテキストサイズ8192のスクラッチから事前トレーニングされた。
論文 参考訳(メタデータ) (2024-03-20T15:39:54Z) - MUSER: A Multi-View Similar Case Retrieval Dataset [65.36779942237357]
類似事例検索(SCR)は、司法公正の促進に重要な役割を果たす代表的法的AIアプリケーションである。
既存のSCRデータセットは、ケース間の類似性を判断する際にのみ、事実記述セクションにフォーカスする。
本稿では,多視点類似度測定に基づく類似事例検索データセットMと,文レベル法定要素アノテーションを用いた包括的法定要素を提案する。
論文 参考訳(メタデータ) (2023-10-24T08:17:11Z) - MAUD: An Expert-Annotated Legal NLP Dataset for Merger Agreement
Understanding [25.094132496985214]
MAUDは、アメリカバー協会の2021年のパブリックターゲット・ディール・ポイント・スタディに基づく、専門家による注釈付き読解データセットである。
我々の微調整されたTransformerベースラインは、多くの質問において、モデルがランダムよりもはるかに高いパフォーマンスで、有望な結果を示している。
MAUDは法律専門家とNLPコミュニティの両方にとって重要なベンチマークである。
論文 参考訳(メタデータ) (2023-01-02T21:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。