論文の概要: Calibration of Structured Ignorance Certificates for Diagnosing Unknown Unknowns in Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.08571v1
- Date: Sun, 07 Jun 2026 11:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.269731
- Title: Calibration of Structured Ignorance Certificates for Diagnosing Unknown Unknowns in Reasoning Models
- Title(参考訳): 推論モデルにおける未知の未知の診断のための構造的無知証明書の校正
- Authors: Subramanyam Sahoo,
- Abstract要約: 大きな言語モデルは、しばしば特徴的な方法で失敗する。無知を認めるのではなく、知識境界を越えて存在する質問に対して、流動的だが誤った答えを生み出す。
textbfStructured Ignorance Certificates (SICs) というパラフレーズ形式の出力スキーマを導入する。
735 UU質問に対する評価は、99.46%の妥当性率、0.967の平均証明特異度スコア、3.6%のROUGE-L改善を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models frequently fail in a characteristic way: rather than acknowledging ignorance, they produce fluent but incorrect answers to questions that lie beyond their knowledge boundaries. We introduce \textbf{Structured Ignorance Certificates} (SICs), a JSON-formatted output schema that demands a model explicitly name the missing domain intersection, enumerate required concepts, and propose a productive retrieval query rather than hallucinating an answer. To train models to produce high-quality SICs we construct a 7,347-sample \emph{Unknown-Unknown} (UU) dataset by prompting Qwen3-14B to stitch together questions from seven domains (physics, biology, engineering, CS, economics, medical, legal) into novel cross-domain queries that no single-domain expert could answer. We fine-tune a 14B-parameter model with Group Relative Policy Optimization (GRPO) using a composite reward that combines retrieval utility, concept specificity, and output-format validity. A paraphrase-divergence probe trained on model responses confirms that SIC-tuned outputs systematically exhibit higher unknown-unknown probability scores. Evaluation on 735 held-out UU questions achieves a 99.46\% JSON validity rate, a mean Certificate Specificity Score of 0.967, and a 3.6\% ROUGE-L improvement over the base model on retrieval-grounded generation -- demonstrating that explicit epistemic structuring is a learnable and measurable capability.
- Abstract(参考訳): 大きな言語モデルは、しばしば特徴的な方法で失敗する。無知を認めるのではなく、知識境界を越えて存在する質問に対して、流動的だが誤った答えを生み出す。
SIC(textbf{Structured Ignorance Certificates})というJSON形式の出力スキーマを導入します。
高品質のSICを作成するためのモデルをトレーニングするために、Qwen3-14Bに7つのドメイン(物理学、生物学、工学、CS、経済学、医学、法学)からの質問を1つのドメインの専門家が答えられない新しいクロスドメインクエリに縫合するよう促すことで、7,347サンプルのemph{Unknown-Unknown} (UU)データセットを構築します。
我々は、検索ユーティリティ、概念特異性、出力形式妥当性を組み合わせた複合報酬を用いて、グループ相対政策最適化(GRPO)を用いた14Bパラメータモデルを微調整する。
モデル応答に基づいて訓練されたパラフレーズ分割プローブは、SICで調整された出力が、未知の未知の確率スコアを体系的に高めることを確認する。
735のホールドアウトUU質問に対する評価は、99.46\%のJSON妥当性率、0.967の平均Certificate Specificity Score、検索基底生成のベースモデルよりも3.6\%のROUGE-Lの改善を実現している。
関連論文リスト
- Automated Proving of Shannon-Type Entropy Inequalities via Fine-Tuned Language Models and Guided Tree Search [50.16356451328644]
シャノン型エントロピーの不等式を証明することは情報理論の基本的な課題である。
我々は,原子実証のステップを微調整した小規模大規模言語モデルがこのプロセスを自動化することができるか検討する。
GPT-5.5は0ショットプロンプトで1.7%のサンプルを解き、Psitipは33.3%のサンプルを解いた。
論文 参考訳(メタデータ) (2026-06-04T05:43:12Z) - Towards Dependable Retrieval-Augmented Generation Using Factual Confidence Prediction [0.28932261919131014]
検索プロセスの事実性に関する有意義な信頼度と生成した回答を関連付けることが重要である。
本稿では,新たな2段階の手法を提案する。
我々の研究は、幅広い自然言語産業応用のための新しいタイプの認証されたRAGシステムを確立するのに役立ちます。
論文 参考訳(メタデータ) (2026-05-04T11:28:19Z) - From Natural Language to Verified Code: Toward AI Assisted Problem-to-Code Generation with Dafny-Based Formal Verification [0.30915521808748864]
大規模な言語モデルは、自動化されたソフトウェア工学における約束を示すが、その正しさの保証は、誤ったコードや幻覚的なコードによってしばしば損なわれる。
NaturalLanguage2VerifiedCodeデータセット:60の複雑なアルゴリズム問題の集合を提供する。
7個のオープンウェイト LLM でランダムに選択された11個の問題集合をタイレッドプロンプト戦略を用いて評価した。
以上の結果から,コンテキストレスなプロンプトがほぼユニバーサルの失敗につながる一方で,構造的アンカーと反復的自己修復が劇的なパフォーマンスの転換を促進することが示唆された。
論文 参考訳(メタデータ) (2026-04-24T14:28:10Z) - PassiveQA: A Three-Action Framework for Epistemically Calibrated Question Answering via Supervised Finetuning [0.0]
不完全情報の下では、モデルが解答、解答、Ask、Abstainを判断しなければならない。
本稿では,教師付き微調整によりモデル行動と情報満足度を整合させる3つのアクション・フレームワークであるPassiveQAを提案する。
提案手法は,構造化情報状態表現,知識グラフ基底コンテキスト,および不足変数と決定推論を明示的にモデル化した微調整プランナーを統合する。
論文 参考訳(メタデータ) (2026-04-06T09:54:16Z) - Benchmarking Uncertainty Calibration in Large Language Model Long-Form Question Answering [7.1559850008795385]
大きな言語モデル(LLM)は質問回答(QA)設定で一般的に使用される。
既存のUQアプローチは、科学的QAでは弱い検証が残っている。
推論要求QAにおけるUQ指標を評価するための,最初の大規模ベンチマークを紹介する。
論文 参考訳(メタデータ) (2026-01-30T20:02:34Z) - Requirements Satisfiability with In-Context Learning [1.747623282473278]
インコンテキスト学習(ICL)と呼ばれる推論時にタスクを学習できる言語モデルは、自然言語タスクの公約が増加することを示している。
本稿では,システム仕様と関連する知識によって要求がどのように満たされるかを記述した満足度議論の設計評価にICLを適用した。
このアプローチは、拡張生成、プロンプトチューニング、チェーン・オブ・シークレットプロンプトを含む3つのプロンプトデザインパターンに基づいて構築される。
論文 参考訳(メタデータ) (2024-04-19T01:58:24Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。