論文の概要: QIAS 2026: Overview of the Shared Task on Islamic Inheritance Reasoning
- arxiv url: http://arxiv.org/abs/2606.13756v1
- Date: Thu, 11 Jun 2026 16:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.548931
- Title: QIAS 2026: Overview of the Shared Task on Islamic Inheritance Reasoning
- Title(参考訳): QIAS 2026 イスラム継承推論に関する共有課題の概要
- Authors: Abdessalam Bouchekif, Somaya Eltanbouly, Samer Rashwani, Shahd Gaben, Mutaz Al-Khatib, Heba Sbahi, Emad Mohamed, Mohammed Ghaly,
- Abstract要約: 本報告では,OSACT7ワークショップの一環として編成されたQIAS 2026共有タスクの概要をLREC 2026と共同で紹介する。
共有されたタスクは、イスラーム継承の宗教的および法的領域において、複雑な推論を行うための大きな言語モデルの能力を評価するために設計された。
本総説では、タスク設計、データセット、評価フレームワーク、参加システム、主な成果について概説する。
- 参考スコア(独自算出の注目度): 0.16060719742433224
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a comprehensive overview of the QIAS 2026 shared task, organized as part of the OSACT7 Workshop and co-located with LREC 2026. The shared task was designed to evaluate the ability of large language models to perform complex reasoning in the religious and legal domain of Islamic inheritance. Unlike conventional question-answering benchmarks, QIAS 2026 focuses on end-to-end reasoning from natural language cases, requiring systems to perform the full inheritance calculation process, from identifying the eligible heirs to assigning the correct share to each beneficiary. To support this evaluation, the task was based on the MAWARITH benchmark, a dataset of $12{,}500$ Arabic inheritance cases annotated with intermediate reasoning steps and final answers. System submissions were evaluated using MIR-E, a multi-step metric that measures performance across the main stages of inheritance reasoning. A total of $16$ teams participated in the shared task, investigating a range of approaches, including prompting-based methods, retrieval-augmented generation, and fine-tuning strategies. The results show that Islamic inheritance remains a highly challenging benchmark for current language models, especially in stages that require precise legal interpretation and structured numerical reasoning. This overview summarizes the task design, dataset, evaluation framework, participating systems, and main results.
- Abstract(参考訳): 本稿では,OSACT7ワークショップの一環として企画され,LREC 2026と共同で実施されているQIAS 2026共有タスクの概要を紹介する。
共有されたタスクは、イスラム教継承の宗教的および法的領域において、複雑な推論を行うための大きな言語モデルの能力を評価するために設計された。
従来の質問回答ベンチマークとは異なり、QIAS 2026は自然言語のケースからエンド・ツー・エンドの推論に重点を置いている。
この評価を支援するために、このタスクは、中間的推論ステップと最終回答を付加した12,500ドルのアラビア継承ケースのデータセットであるMAWARITHベンチマークに基づいていた。
MIR-Eは、継承推論の主要な段階にわたるパフォーマンスを測定する多段階の指標である。
合計16ドルのチームが共有タスクに参加し、プロンプトベースのメソッド、検索拡張生成、微調整戦略など、さまざまなアプローチを調査した。
結果は、イスラームの継承が現在の言語モデル、特に正確な法的解釈と構造化された数値推論を必要とする段階において、非常に困難なベンチマークのままであることを示している。
本総説では、タスク設計、データセット、評価フレームワーク、参加システム、主な成果について概説する。
関連論文リスト
- SpatialWorld: Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks [73.92333717662558]
SpaceWorldは、複雑な現実世界のタスクにおけるマルチモーダルエージェントのインタラクティブな空間的理解を評価するためのベンチマークである。
多様なドメイン(例えば、家庭のルーチン、旅行、社会協力など)にまたがる760の人称タスクが特徴である。
信頼性評価のために、各タスクは、人間検証された初期状態、参照軌跡、端末状態検証器を含む。
論文 参考訳(メタデータ) (2026-06-08T15:51:51Z) - SemEval-2026 Task 7: Everyday Knowledge Across Diverse Languages and Cultures [93.36078244548077]
タスクデータは、手動で構築したBLEnDベンチマーク(Myung et al. 2024)の拡張バージョンで構成され、30以上の言語培養ペアをカバーする。
このタスクは厳密に評価のために設計されているため、参加者はトレーニング、微調整、数発の学習、その他のモデル修正のためにデータを使用することは許されなかった。
その結果を報告し、最も優れたシステムと最も広く採用されているアプローチについて分析する。
論文 参考訳(メタデータ) (2026-05-04T13:49:44Z) - QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning [1.0152838128195467]
我々は、QU-NLPがQIAS 2026に提出したアラビア語の継承推論に関するタスクを提示する。
提案手法はQwen3-4B上での多段階量子化低ランク適応戦略を用いる。
ランク128LORAの4ビットNF4量子化を用いて、テストセット上で90%のMIR-E(Mawarith Inheritance Reasoning Evaluation)を達成した。
論文 参考訳(メタデータ) (2026-03-29T09:11:17Z) - CVPD at QIAS 2026: RAG-Guided LLM Reasoning for Al-Mawarith Share Computation and Heir Allocation [10.10466400658828]
本稿では,この設定のための検索拡張世代(RAG)パイプラインを提案する。
シンボル継承電卓を用いて、大きな高品質な合成コーパスを生成する。
提案システムでは、MIR-Eスコア0.935を達成し、2026年の盲目テストのリーダーボードで第1位にランクインした。
論文 参考訳(メタデータ) (2026-03-25T07:19:29Z) - QU-NLP at QIAS 2025 Shared Task: A Two-Phase LLM Fine-Tuning and Retrieval-Augmented Generation Approach for Islamic Inheritance Reasoning [1.0152838128195467]
我々はLow-Rank Adaptation (LoRA)を用いてFanar-1-9B因果言語モデルを微調整し、それをRetrieval-Augmented Generationパイプラインに統合した。
GPT 4.5, LLaMA, Fanar, Mistral, ALLaM などの他の競合モデルに対してゼロショットプロンプトで評価した。
論文 参考訳(メタデータ) (2025-08-20T10:29:55Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z) - EFaR 2023: Efficient Face Recognition Competition [51.77649060180531]
バイオメトリックス国際会議(IJCB 2023)における効率的な顔認識コンペティション(EFaR)の概要について述べる。
この競技会は6つの異なるチームから17の応募を受けた。
提案したソリューションは、様々なベンチマークで達成された検証精度の重み付けスコアと、浮動小数点演算数とモデルサイズによって与えられるデプロイ可能性に基づいてランク付けされる。
論文 参考訳(メタデータ) (2023-08-08T09:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。