論文の概要: Which Models Perform Better in Inheritance Reasoning?
- arxiv url: http://arxiv.org/abs/2606.13751v1
- Date: Thu, 11 Jun 2026 15:23:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.544643
- Title: Which Models Perform Better in Inheritance Reasoning?
- Title(参考訳): 継承推論においてどのモデルが優れているか?
- Authors: Mohammed Amine Mouhoub, Chahinez Bouchekif,
- Abstract要約: 本稿では,QIAS 2026におけるチームPSLのアラビア・イスラム継承推論に関する共有課題への参加について述べる。
このタスクは、法的な解釈、多段階推論、正確な数値計算を必要とする継承事件を解決するために、大規模言語モデルの能力を評価する。
我々は,タスク固有の適応を最小限に抑えた構造化された法的推論において,その有効性を評価する統一的なプロンプト戦略の下で,テキスト商用およびテキストオープンソースモデルを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents the participation of team PSL in the QIAS 2026 Shared Task on Arabic Islamic inheritance reasoning. The task evaluates the ability of large language models to solve inheritance cases that require legal interpretation, multi-step reasoning, and precise numerical computation. We compare \textit{commercial} and \textit{open-source} models under a unified prompting strategy to assess their effectiveness in structured legal reasoning with minimal task-specific adaptation. \\ Our results show a clear gap in reliability between the two model families. Commercial models demonstrate stronger performance in identifying eligible heirs, applying exclusion rules, and maintaining consistency across reasoning steps. In contrast, open-source models exhibit greater instability, particularly in cases involving dependent legal decisions and fractional share adjustments. The best performance is achieved by \textit{Gemini 2.5 Flash}, with an MRE of $0.989$.
- Abstract(参考訳): 本稿では,QIAS 2026におけるチームPSLのアラビア・イスラム継承推論に関する共有課題への参加について述べる。
このタスクは、法的な解釈、多段階推論、正確な数値計算を必要とする継承事件を解決するために、大規模言語モデルの能力を評価する。
我々は,タスク固有の適応を最小限に抑えた構造化法的推論において,その有効性を評価する統一的なプロンプト戦略の下で, \textit{commercial} と \textit{open-source} モデルを比較した。
以上の結果から,2つのモデルファミリ間の信頼性のギャップが明らかとなった。
商業モデルは、資格のある後継者を特定し、排他的ルールを適用し、推論ステップ間の一貫性を維持する上で、より強力なパフォーマンスを示す。
対照的に、オープンソースモデルは、特に依存する法的決定や分数的共有調整を含む場合において、より不安定である。
最高のパフォーマンスは、$0.989$のMREを持つ \textit{Gemini 2.5 Flash} によって達成される。
関連論文リスト
- QU-NLP at QIAS 2026: Multi-Stage QLoRA Fine-Tuning for Arabic Islamic Inheritance Reasoning [1.0152838128195467]
我々は、QU-NLPがQIAS 2026に提出したアラビア語の継承推論に関するタスクを提示する。
提案手法はQwen3-4B上での多段階量子化低ランク適応戦略を用いる。
ランク128LORAの4ビットNF4量子化を用いて、テストセット上で90%のMIR-E(Mawarith Inheritance Reasoning Evaluation)を達成した。
論文 参考訳(メタデータ) (2026-03-29T09:11:17Z) - Distributional Clarity: The Hidden Driver of RL-Friendliness in Large Language Models [50.99097734404912]
RLフレンドリなモデルでは, クラス内コンパクト性やクラス間分離が, 正誤応答に対する確率割当に現れることを示す。
6つの数学ベンチマークによる実験では、すべてのモデルファミリで一貫した改善が見られ、AIME24では5.9ポイントまで向上した。
論文 参考訳(メタデータ) (2026-01-11T13:34:44Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Assessing Large Language Models on Islamic Legal Reasoning: Evidence from Inheritance Law Evaluation [0.17592522344393483]
o3, Gemini 2.5は90%以上、allaM, Fanar, LLaMA, Mistralは50%以下であった。
モデル間で繰り返し発生する障害パターンを特定するために、詳細なエラー解析を行う。
本研究は、構造化された法的推論を扱う際の限界を強調し、イスラム法的推論におけるパフォーマンス向上の方向性を提案する。
論文 参考訳(メタデータ) (2025-09-01T03:08:10Z) - Rationales Are Not Silver Bullets: Measuring the Impact of Rationales on Model Performance and Reliability [70.4107059502882]
有理数拡張による学習言語モデルは、多くの既存の作品において有益であることが示されている。
モデル性能に対する合理的性の影響を徹底的に調査するため、包括的調査を行う。
論文 参考訳(メタデータ) (2025-05-30T02:39:37Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Optimal Query Allocation in Extractive QA with LLMs: A Learning-to-Defer Framework with Theoretical Guarantees [3.4289478404209826]
大規模言語モデルは生成タスクでは優れているが、構造化されたテキスト選択では非効率である。
本稿では,専門的な専門家にクエリを割り当て,信頼性の高い予測を確実にする学習者向けフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-21T08:21:00Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。