論文の概要: Charge as a Construct-Validity Factor in Chinese Legal Case Retrieval: A Cross-Benchmark Audit
- arxiv url: http://arxiv.org/abs/2606.12993v2
- Date: Mon, 15 Jun 2026 03:30:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:04.892933
- Title: Charge as a Construct-Validity Factor in Chinese Legal Case Retrieval: A Cross-Benchmark Audit
- Title(参考訳): 中国の判例検索における構成価値因子としての課金:クロスベンチマーク監査
- Authors: Yao Liu, Tien-Ping Tan, Zhilan Liu,
- Abstract要約: 中国語の判例検索ベンチマークは、その法的な特徴がクエリと一致する場合に関連する基準判断を格付けする。
BM25-to-best-trainedのギャップのほとんどは、検索モデルなしで回復可能である。
再利用可能なチャージ制御プロトコルとして構成妥当性と部分入力チェックをパッケージ化する。
- 参考スコア(独自算出の注目度): 4.366904149463058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese Legal Case Retrieval (LCR) benchmarks grade a reference judgment relevant when its legal characterization matches the query, and strong systems now reach NDCG@10 of 0.85-0.88. Most of the BM25-to-best-trained gap is recoverable with no retrieval model: ranking candidates only by shared primary charge, broken by BM25, closes 99.2% of it on LeCaRDv2 -- with no detectable difference from the best-trained system. This reflects benchmark design: LeCaRDv2 defines top relevance via the crime's key constitutive elements, which encode the charge, so same-charge cases are relevant by construction (relevance lift 4.49; charge-to-relevance macro-AUC 0.871). Holding charge fixed, the trained reranker's advantage over BM25 collapses to a small within-charge residual (+0.026 NDCG@10, cluster-bootstrap CI excluding zero, about a quarter), the only non-definitional positive. The effect is not uniform: the same rule recovers 84.3% on LeCaRDv1 and is out of spec on CAIL2022, with the charge-to-relevance signal weakening in step (macro-AUC 0.871/0.759/0.728); a predicted-charge cascade reproduces 76.6% on LeCaRDv2 but does not transfer. The construct is also cashable at first stage: an exploratory zero-training charge-pool channel lifts LeCaRDv2 recall (R@100 +0.025, wrong-charge controls hurt), reported as a positive control for the confound, not a retrieval method or novelty claim. Charge is thus a high-leverage construct-validity factor at the benchmark level -- not auniform explanation of NDCG@10, and not evidence that any system relies on charge. We package established construct-validity and partial-input checks as a reusable charge-controlled protocol (CCE); on all three benchmarks its triggers come back null or descriptive, behaving as designed. We release the scripts, schema, and protocol so future benchmarks can be screened before their NDCG@10 is read as legal-reasoning ability.
- Abstract(参考訳): 中国語の判例検索 (LCR) ベンチマークでは、その法的な特徴がクエリと一致する場合に関連する基準判断が評価され、強いシステムは 0.85-0.88 の NDCG@10 に到達した。
BM25が分割した共有プライマリチャージによってのみランク付けされ、99.2%がLeCaRDv2で閉鎖され、最も訓練されたシステムと検出可能な違いはない。
LeCaRDv2 は、犯罪の鍵構成要素による最高関連性を定義しており、これは電荷を符号化しているため、同じ電荷のケースは建設によって関連がある(関連リフト4.49、チャージ・トゥ・レバレンス・マクロ-AUC 0.871)。
チャージを固定すると、BM25に対する訓練されたリランカーの優位性は、最小限の充電残差(+0.026 NDCG@10、クラスタブートストラップCI、ゼロを除く約4分の1)に崩壊する。
同じルールがLeCaRDv1上で84.3%回復し、CAIL2022では仕様外となり、充電関連信号が段階的に弱まる(macro-AUC 0.871/0.759/0.728)。
探索的なゼロトレーニングのチャージプールチャネルがLeCaRDv2リコール(R@100 +0.025、不正チャージ制御)を解除し、検索方法やノベルティクレームではなく、コンファウンドの正の制御として報告する。
したがって、電荷は、ベンチマークレベルでの高平均構成値係数であり、NDCG@10の一様説明ではなく、どのシステムも電荷に依存しているという証拠ではない。
再利用可能なチャージ制御プロトコル(CCE)として確立されたコンストラクトバリダリティと部分入力チェックをパッケージ化し、そのトリガは3つのベンチマークすべてでnullまたはdescriptiveで、設計通りに動作します。
NDCG@10が法的推論能力として読まれる前に、将来のベンチマークをスクリーニングできるように、スクリプト、スキーマ、プロトコルをリリースします。
関連論文リスト
- Decision-Aware Memory Cards: Counterfactual-Inspired Context Selection and Compression for Tool-Using LLM Agents [3.964533007623828]
CICLは、インスタンスエビデンスをコンテキストグラフに変換し、決定論的、オプス支援、Qwen、Codex/GPT-5.5、Qwen-QLoRAの判断をルートする。
CICLは、その限界を露出しながら、具体的なオープンベンチマークゲインを得る。
論文 参考訳(メタデータ) (2026-06-06T13:02:28Z) - Cherry-pick Override: Unsafe Directional Commitment in LLM Judges under Mixed Evidence [14.905172804386973]
我々は、検証生成とコミットメント承認を分離する外部コミットメント制御層を論じる。
我々はCCOを明示的なタスク契約で定義し、同一のデノミネータ診断プロトコルで報告する。
論文 参考訳(メタデータ) (2026-06-05T20:51:51Z) - Stochastic Estimation of the Layer-wise Hessian Trace for Monitoring Neural-network Training [45.88028371034407]
本稿では,ニューラルネットワークの経験的リスクであるヘッセン行列の対角ブロックの軌跡のパラメータ推定器を提案する。
この手順はハッチンソントレース推定器とパラメータベクトル全体の上の1つのヘッセンベクトル積を組み合わせたものである。
重み分担の下での正しさは,第2次微分の前に階層的にヘッセンを組み立てる必要があることを示す。
論文 参考訳(メタデータ) (2026-05-25T10:24:32Z) - Step-wise Rubric Rewards for LLM Reasoning [72.17879367869503]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論を改善するために広く使われている。
正しい回答の18.2%は間違っているが、肯定的な報酬がある。
6つの数学的推論ベンチマークで、SRaRはRaRの平均精度を3.57ポイント改善した。
論文 参考訳(メタデータ) (2026-05-17T07:08:14Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing [5.661334639541121]
CRANEは、シンキング・インストラクトデルタを、インストラクトバックボーンの候補推論編集のプールとして扱う、トレーニング不要なパラメータ編集手法である。
ペア化されたインストラクトとシンキングのチェックポイントを組み合わせることで、CRANEはどちらのモデルよりも強力なゲインを提供する。
論文 参考訳(メタデータ) (2026-05-13T20:09:35Z) - OCRR: A Benchmark for Online Correction Recovery under Distribution Shift [0.0]
OCRR (Online Correction Recovery Rate) は、コーパスを分類システムを通じてストリームし、間違った予測にオラクルや修正を適用するベンチマークである。
連続学習ベースラインは、同じメモリ予算で32.6ポイントも上回っている。
また、LoRA-on-DeBERTa-v3の保持率も84.6%アップした。
論文 参考訳(メタデータ) (2026-05-04T20:51:07Z) - Learning from Emptiness: De-biasing Listwise Rerankers with Content-Agnostic Probability Calibration [76.08899010904652]
CapCalは、ランキング決定から位置バイアスを機械的に分離する、トレーニング不要のフレームワークである。
シングルパス効率を保ちながら、トレーニング不要の手法で優れた性能を発揮する。
論文 参考訳(メタデータ) (2026-04-11T10:47:22Z) - Enhancing Continual Learning for Software Vulnerability Prediction: Addressing Catastrophic Forgetting via Hybrid-Confidence-Aware Selective Replay for Temporal LLM Fine-Tuning [43.24339861841546]
本稿では,CVE-linked データセット上でのデコーダ型言語モデル (phi/phi-2 with LoRA) の微調整について検討する。
本研究では,ウィンドウオンリーおよび累積学習,リプレイベースライン,正規化ベースバリアントを含む8つの連続学習戦略を評価する。
ハイブリッドCASRはベースラインと比較してウィンドウ当たりのトレーニング時間を約17%削減する一方、累積トレーニングは15.9倍の計算コストでF1をわずかに増加させる(0.661)。
論文 参考訳(メタデータ) (2026-02-27T09:13:23Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。