論文の概要: DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
- arxiv url: http://arxiv.org/abs/2606.18557v1
- Date: Wed, 17 Jun 2026 00:13:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.940784
- Title: DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models
- Title(参考訳): DeFAb: ファンデーションモデルにおける決定可能なアブダクションのための検証可能なベンチマーク
- Authors: Patrick Cooper, Alvaro Velasquez,
- Abstract要約: ルールベースの論理解法は、ベンチマークの全インスタンスを50マイクロ秒未満で100%精度で解決する。
データセットと生成パイプラインであるDeFAb(Defeasible Abduction Benchmark)を紹介します。
- 参考スコア(独自算出の注目度): 6.628401122676601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A rule-based logic solver resolves every instance in our benchmark in under 50 microseconds with 100% accuracy; the best frontier language model reaches 65% at best and drops to 23.5% under rendering-robust evaluation (worst case over four surface renderings). We introduce DeFAb (Defeasible Abduction Benchmark), a dataset and generation pipeline that converts four decades of publicly funded knowledge bases into formally grounded instances for defeasible abduction: constructing hypotheses that explain anomalies by overriding defaults while preserving unrelated expectations. Because every hypothesis must pass polynomial-time checks for valid derivation, conservativity, and minimality, DeFAb makes logical rigor the instrument for measuring creativity and theoretical reasoning, scoring the disciplined construction of theory revisions rather than fluent but theory-destroying prose. The pipeline pairs taxonomic hierarchies (OpenCyc, YAGO, Wikidata) with behavioral property graphs (ConceptNet, UMLS) to produce 372,648+ instances across 33.75M materialized rules from 18 sources, in three levels with polynomial-time verifiable gold standards. Four frontier models do not reliably internalize defeasible reasoning: rendering-robust Level 2 accuracy is 7.8-23.5%; chain-of-thought variance (~36 pp) exceeds any inter-model gap; and a matched contamination control isolates a +19.4 pp Level 3 gap. We further release DeFAb-Hard (a 235-instance Level 3 difficulty variant; best model 53.3% vs 100% symbolic) and CONJURE (a kernel-verified transformative-creativity variant of 560 Lean 4/Mathlib instances whose gold answers are definitions the proof kernel did not previously contain, judge-free verifier; a pilot finds zero novel concepts). The same verifier doubles as an exact reward for preference optimization (DPO, RLVR/GRPO). Released under MIT at https://huggingface.co/datasets/PatrickAllenCooper/DeFAb.
- Abstract(参考訳): ルールベースの論理解法は、ベンチマークのすべてのインスタンスを50マイクロ秒未満で100%精度で解決する。最高のフロンティア言語モデルは、レンダリング・ロバスト評価(4つの面レンダリングよりも弱い場合)の下で、最高で65%に達し、23.5%に低下する。
DeFAb(Defeasible Abduction Benchmark)は、40年にわたる公的資金による知識ベースを、デファシブル・アブダクション(defeasible afduction)の正式な根拠となるインスタンスに変換するデータセットと生成パイプラインである。
全ての仮説は、有効な導出、保守性、最小性のための多項式時間チェックをパスしなければならないので、DeFAbは論理的な厳密さを創造性や理論的推論を測る道具とし、理論修正の規律的な構成を、フロートではなく、理論の破壊的な散文で評価する。
パイプラインは、行動特性グラフ(ConceptNet, UMLS)と分類的階層(OpenCyc, YAGO, Wikidata)を組み合わせ、33.75Mの実体化されたルールを18のソースから3段階に分けて、372,648以上のインスタンスを生成する。
レンダリング・ロバスト・レベル2の精度は7.8-23.5%、チェーン・オブ・プルーフ(~36pp)はモデル間ギャップを超え、マッチした汚染制御はレベル3のギャップを+19.4pp分離する。
さらに、DeFAb-Hard (235-instance Level 3 difficulty variant; best model 53.3% vs 100% symbolic) と CONJURE (560 Lean 4/Mathlibインスタンスのカーネル認定変換生成変種。
同じ検証器は、好み最適化(DPO、RLVR/GRPO)の正確な報酬として2倍になる。
MITがhttps://huggingface.co/datasets/PatrickAllenCooper/DeFAbでリリースした。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization [50.59956036193097]
検証可能な報酬(RLVR)を用いた強化学習における正しい解を生成するモデル
各トークンは、決定的な推論ステップであれ、文法的なフィラーであれ、同じ報酬信号を受信する。
コントラストエビデンスポリシー最適化(CEPO)を提案する。
CEPOは、全てのトークンに対してよりシャープな質問をする:「正しい答えは、このトークンを好むか?」が、「正しい答えは、正しい答えは、それを好む一方で、間違った答えはそれを好まないか?」。
論文 参考訳(メタデータ) (2026-05-19T06:46:19Z) - PBT-Bench: Benchmarking AI Agents on Property-Based Testing [29.035258104995204]
PBT-Benchは、40の実際のPythonライブラリにまたがる100のプロパティベースのテスト問題のベンチマークである。
各問題は1つ以上のセマンティックなバグ(総数365、平均3.65)を注入し、デフォルトのストラテジーなランダムな入力がほとんど起こらないように設計する。
PBT指導によるバグリコールは42.1%から83.4%の範囲で、オープンエンドベースラインでは31.4%から76.7%である。
論文 参考訳(メタデータ) (2026-05-13T18:01:05Z) - Durable Evaluation Framework: Adversarial Arbitration for Sycophancy Reduction in Large Language Models [0.0]
本稿では、Durable Evaluation Framework Arbitrationの迅速なインスタンス化について評価する。
DEF Arbitrationは、反対のDEFに調整された2つのモデル間の調停によって、IDフレームのシコファンシーを緩和する。
論文 参考訳(メタデータ) (2026-04-21T10:30:25Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。
新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。
このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文 参考訳(メタデータ) (2026-04-02T08:22:17Z) - AlgoVeri: An Aligned Benchmark for Verified Code Generation on Classical Algorithms [54.99368693313797]
既存のベンチマークでは、個々の言語/ツールのみをテストするため、パフォーマンス番号は直接比較できない。
このギャップに対処するAlgoVeriは、Dafny、Verus、Leanで77ドルの古典的アルゴリズムのベリコーディングを評価するベンチマークです。
論文 参考訳(メタデータ) (2026-02-10T06:58:26Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。