論文の概要: GRACE: Step-Level Benchmark for Faithful Reasoning over Context
- arxiv url: http://arxiv.org/abs/2606.16151v1
- Date: Mon, 15 Jun 2026 03:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.046988
- Title: GRACE: Step-Level Benchmark for Faithful Reasoning over Context
- Title(参考訳): GRACE: コンテキストに対する忠実な推論のためのステップレベルベンチマーク
- Authors: Hoang Pham, Dong Le, Anh Tuan Luu,
- Abstract要約: Chain-of-Thoughtのプロンプトは透明に見える痕跡を生成するが、個々のステップは証拠から静かに逸脱する可能性がある。
GRACEは、データ駆動型エラー分類を用いた最初の人間によるステップレベルの忠実度ベンチマークである。
データ駆動分類法は、教師なしクラスタリングによってボトムアップを発見し、失敗を2つのトラックに編成する。
- 参考スコア(独自算出の注目度): 43.250340595492275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reasoning tasks require models to reason over input context, from document-grounded question answering to rule-based deduction. Chain-of-Thought (CoT) prompting produces traces that appear transparent, yet individual steps can silently deviate from the source evidence, even when the final answer is correct. Existing methods detect hallucinations at the response level but fail to identify where in the chain a failure occurs or what type it is. We introduce GRACE, the first human-annotated step-level faithfulness benchmark with a data-driven error taxonomy for context-grounded textual reasoning. GRACE covers CoT traces from 10 models across 4 source datasets, with each step annotated for faithfulness, error category, and natural language explanation. A data-driven taxonomy, discovered bottom-up via unsupervised clustering, organizes failures into two tracks: GRACE-Inference (deductive errors) and GRACE-Grounding (factual grounding errors), with four categories each. The evaluation set is human-annotated and challenging by design. Our experiments reveal substantial headroom for current models. In addition, integrating step-level faithfulness signals into reinforcement learning pipelines improves both downstream accuracy and reasoning reliability.
- Abstract(参考訳): 多くの推論タスクは、文書による質問応答からルールベースの推論まで、入力コンテキストを推論するモデルを必要とする。
CoT(Chain-of-Thought)は、透明に見える痕跡を生成するが、最終的な答えが正しい場合でも、個々のステップが証拠から静かに逸脱する可能性がある。
既存の方法は、応答レベルで幻覚を検出するが、チェーン内で障害が発生した場所や、それがどのタイプであるかを特定できない。
GRACEは人間に注釈を付けた最初のステップレベルの忠実度ベンチマークであり、文脈に基づくテキスト推論のためのデータ駆動型誤り分類法である。
GRACEは、4つのソースデータセットにわたる10モデルのCoTトレースをカバーしており、各ステップは忠実さ、エラーカテゴリ、自然言語の説明のために注釈付けされている。
データ駆動型分類法は、教師なしクラスタリングによってボトムアップを発見し、障害をGRACE-Inference(デダクティブエラー)とGRACE-Grounding(実際のグラウンドエラー)の2つのトラックにまとめ、それぞれ4つのカテゴリに分類する。
評価セットは人間によって注釈付けされ、設計によって挑戦される。
我々の実験は、現在のモデルのためのかなりのヘッドルームを明らかにした。
さらに、ステップレベルの忠実度信号を強化学習パイプラインに統合することで、下流の精度と推論信頼性が向上する。
関連論文リスト
- ReasoningFlow: Discourse Structures for Understanding LLM Reasoning Traces [13.927941324541356]
ReasoningFlowは、LRM推論の談話構造を微粒な非巡回グラフにトレースするフレームワークである。
ReasoningFlowグラフを解析することにより、異なるベースモデルからトレーニングされているにもかかわらず、LRMは構造的に類似したトレースを示すことがわかった。
ReasoningFlowは、トレース監視性を改善するために使用できる、さまざまなきめ細かい推論動作を明らかにする。
論文 参考訳(メタデータ) (2026-06-03T20:12:26Z) - Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens [4.0704009036918025]
大規模言語モデルにおける推論は、重要な推論時間計算を引き起こす。
推論トークンは、低エントロピーのテクスト構造トークン(推論過程を足場とするフレーズの再帰)と高エントロピーのテクスト有機トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分かれていることを示す。
頻繁な構造パターンをキャプチャするテクスチャツペルトケンを導出し、教師付き微調整によりモデルに導入するように教える。
論文 参考訳(メタデータ) (2026-04-29T07:06:43Z) - Shape of Thought: When Distribution Matters More than Correctness in Reasoning Tasks [24.55929874173401]
より有能なモデルからの連鎖トレースのデータセットをトレーニングすることで、言語モデルの推論能力を向上させることができることを示す。
実験により、このアプローチは人間の注釈付きデータセットのトレーニングよりも推論タスクのパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2025-12-24T07:35:55Z) - MUSTARD: Mastering Uniform Synthesis of Theorem and Proof Data [85.50740598523818]
MUSTARDは、高品質で多様性のある定理と証明データの均一な合成をマスターするフレームワークである。
5,866個の有効なデータポイントを持つMUSTARDSAUCEベンチマークを示す。
我々は広範囲な解析を行い、MUSTARDが検証された高品質なステップバイステップデータを生成することを示す。
論文 参考訳(メタデータ) (2024-02-14T05:57:58Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - ReCEval: Evaluating Reasoning Chains via Correctness and Informativeness [67.49087159888298]
ReCEvalは2つの重要な特性(正確性と情報性)を通じて推論チェーンを評価するフレームワークである。
本稿では、ReCEvalが様々なエラータイプを効果的に識別し、従来の手法と比較して顕著な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-04-21T02:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。