論文の概要: Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering
- arxiv url: http://arxiv.org/abs/2606.07523v1
- Date: Mon, 20 Apr 2026 04:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.672998
- Title: Retrieval Augmented Generation Framework for the Nepali Legal Domain Question Answering
- Title(参考訳): ネパール法定領域質問応答のための検索用拡張生成フレームワーク
- Authors: Samir Wagle, Abiral Adhikari, Reewaj Khanal, Batsal Bhandari, Prashant Manandhar, Praveen Acharya, Bal Krishna Bal,
- Abstract要約: 本研究では,ネパールの法的な質問応答に対する検索型拡張生成モデルの最初の適用例を示す。
このアプローチは91%の精度で最高精度を達成し、多言語E5大モデルで最大75%の精度を実現した。
- 参考スコア(独自算出の注目度): 1.5214205485907346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Legal domains in high-resource languages like English have widely adopted artificial intelligence for legal question answering. However, data scarcity in low resource languages such as Nepali has limited the training of large language models on Nepali legal texts. This study presents the first application of a Retrieval Augmented Generation based model for Nepali legal question answering using case laws extracted from the Nepal Kanun Patrika digital archive. Using BM25 on chunked documents, the approach achieved a top precision at one of 91 percent, and up to 75 percent with the multilingual E5 large model. Evaluation of generated answers showed 74 percent groundedness, 85 percent truthfulness according to an automated judge model, and 84 percent human evaluated truthfulness when using BM25 document retrieval, with a 92 percent successful answer generation rate. These results demonstrate that the RAG pipeline can effectively address the gap in legal question answering for low resource languages and provide a foundation for reliable AI systems in the Nepali legal domain.
- Abstract(参考訳): 英語のような高リソース言語における法的なドメインは、法的質問に答えるために人工知能を広く採用している。
しかし、ネパール語のような低資源言語におけるデータ不足は、ネパールの法文に基づく大規模な言語モデルの訓練を制限している。
本研究は,ネパールのカヌンパトリカデジタルアーカイブから抽出された事例法を用いて,ネパールの法的問題に対する検索拡張生成モデルの最初の応用について述べる。
チャンクドキュメントにBM25を使用することで、マルチリンガルE5大モデルで最大で91%、最大で75%の精度を達成した。
結果,自動判断モデルでは74%の根拠性,85%の真理性,84%の人間がBM25文書検索で真理性を評価し,92%の回答生成率を示した。
これらの結果は、RAGパイプラインが低リソース言語に対する法的質問応答のギャップを効果的に解決できることを示し、ネパールの法域における信頼性の高いAIシステムの基盤を提供する。
関連論文リスト
- NyayaAI: An AI-Powered Legal Assistant Using Multi-Agent Architecture and Retrieval-Augmented Generation [0.7974340311137328]
インドにおける法的な情報は、法律言語が複雑で法的な文書が大量にあるため、ほとんどアクセスできないままである。
本稿では,弁護士,法学部生,一般ユーザを対象に,AIを活用した法律アシスタントであるNyayaAIについて述べる。
論文 参考訳(メタデータ) (2026-05-11T08:04:07Z) - WisdomInterrogatory (LuWen): An Open-Source Legal Large Language Model Technical Report [55.27414605169639]
Wesdom Interrogatory (LuWen)は,バイチュン基礎モデルに基づいて構築された,オープンソースの中国語の法律モデルである。
予測と生成の両方にまたがる5つの代表的な法的課題についてLuWenを評価する。
論文 参考訳(メタデータ) (2026-04-08T06:59:07Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - GAIus: Combining Genai with Legal Clauses Retrieval for Knowledge-based Assistant [0.0]
本稿では,法律情報検索の歴史,事例法と法令法の違い,その法的課題への影響について論じ,この分野での最新の研究を分析する。
本研究では,より説明が容易で,人間に親しみやすい検索機構を提案する。
論文 参考訳(メタデータ) (2025-07-02T00:36:27Z) - Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - PARAMANU-AYN: Pretrain from scratch or Continual Pretraining of LLMs for Legal Domain Adaptation? [3.9018931027384056]
パラマヌ・アイン(Paramanu-Ayn)は、インドの訴訟文書に特化して訓練された法律言語モデルのコレクションである。
Paramanu-Aynは1つのGPU上でわずか185時間、コンテキストサイズ8192のスクラッチから事前トレーニングされた。
論文 参考訳(メタデータ) (2024-03-20T15:39:54Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。