論文の概要: VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification
- arxiv url: http://arxiv.org/abs/2606.24124v1
- Date: Tue, 23 Jun 2026 04:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.761755
- Title: VeryTrace: Verifying Reasoning Traces through Compilable Formalism and Structured Verification
- Title(参考訳): VeryTrace: コンパイル可能な形式主義と構造化検証による推論トレースの検証
- Authors: Ninghan Zhong, Ahmet Ege Tanriverdi, Kaan Kale, Sriram Vishwanath,
- Abstract要約: CoT(Chain-of-Thought)による多段階推論は依然として脆弱である。
本稿では,ゼロショット検証・修復フレームワークであるVeryTraceについて述べる。
- 参考スコア(独自算出の注目度): 3.5959223920188776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-step reasoning with Chain-of-Thought (CoT) prompting remains fragile: logical errors or hallucinations in early steps silently propagate, producing confident but incorrect conclusions. This paper presents VeryTrace, a zero-shot verification-and-repair framework that formalizes natural-language reasoning traces into a structured, compilable representation. VeryTrace introduces a Domain-Specific Language (DSL) that (i) makes step dependencies explicit, (ii) mechanizes quantitative content as executable expressions, and (iii) structures semantic inferences via deduction schemas. Our hybrid verifier combines deterministic checks for computational correctness, dependency resolution, and constraint satisfaction with targeted LLM audits for non-mechanizable semantic judgments, enabling step-level error localization and repair. Across three diverse domains-competition mathematics (AIME 2025), robotics planning (LLM-BabyBench), and kinship reasoning (CLUTRR), VeryTrace improves accuracy over zero-shot baselines on state-of-the-art LLMs without requiring domain-specific training or in-context examples, demonstrating that formalized trace verification achieves both precision and generalization.
- Abstract(参考訳): CoT(Chain-of-Thought)による多段階推論は、論理的誤りや幻覚が静かに伝播し、自信はあるが誤った結論をもたらすという、脆弱なままである。
本稿では,自然言語の推論トレースを構造化・コンパイル可能な表現に変換する,ゼロショット検証・修復フレームワークであるVeryTraceについて述べる。
VeryTraceがDSL(Domain-Specific Language)を導入
(i)ステップ依存を明示する
二 量的内容を実行可能な表現として機械化する、及び
(iii)推論スキーマによる構造的推論。
我々のハイブリッド検証器は、計算精度、依存性の解決、制約満足度に関する決定論的チェックと、非機械的意味判断のためのLLM監査を組み合わせ、ステップレベルのエラーローカライゼーションと修復を可能にする。
3つの異なるドメイン競合数学(AIME 2025)、ロボティクス計画(LLM-BabyBench)、シンシップ推論(CLUTRR)、VeryTraceは、ドメイン固有のトレーニングやインコンテキストの例を必要とせずに、最先端のLLM上のゼロショットベースラインよりも精度を向上し、形式化されたトレース検証が精度と一般化の両方を達成することを示した。
関連論文リスト
- PRISM: A Dual View of LLM Reasoning through Semantic Flow and Latent Computation [15.91920027845529]
PRISM(Probabilistic Reasoning Inspection through Semantic and Implicit Modeling)は、両方のレベルを共同で分析するためのフレームワークおよび診断ツールである。
これは、推論過程における系統的なパターンを明らかにし、失敗した軌道は非生産的な検証ループに閉じ込められる傾向にあることを示した。
PRISMは、最終タスクの精度にのみ依存するのではなく、これらの振る舞いを観測し分析可能にする。
論文 参考訳(メタデータ) (2026-03-24T03:31:53Z) - VERGE: Formal Refinement and Guidance Engine for Verifiable LLM Reasoning [4.3414302048068745]
本稿では,大規模言語モデルとSMTソルバを組み合わせたニューロシンボリック・フレームワークを提案する。
本稿では,(1)形式的意味的等価性チェックによるマルチモデルコンセンサス,(2)適切な検証戦略に異なるクレーム型を指示するセマンティックルーティング,(3)最小補正サブセットによる正確な論理的エラーローカライゼーション,の3点を紹介する。
GPT-OSS-120Bモデルでは、VERGEはシングルパスアプローチと比較して、一連の推論ベンチマークにおいて平均18.7%の性能向上を示す。
論文 参考訳(メタデータ) (2026-01-27T20:59:11Z) - Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。
エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:10:23Z) - Multi-Agent Procedural Graph Extraction with Structural and Logical Refinement [66.51979814832332]
モデル式は、専用の構造的および論理的洗練を伴う多ラウンド推論プロセスとして手続きグラフ抽出を定式化する。
実験により、モデルが強いベースラインに対して構造的正当性と論理的整合性の両方において大幅に改善されることが示されている。
論文 参考訳(メタデータ) (2026-01-27T04:00:48Z) - CoT-Seg: Rethinking Segmentation with Chain-of-Thought Reasoning and Self-Correction [50.67483317563736]
本稿では,段階的に考察し,必要な情報を検索し,結果を生成し,自己評価を行い,結果を洗練するシステムを提案する。
CoT-Segは、思考の連鎖推論と自己補正を組み合わせることで、推論セグメンテーションを再考する、トレーニング不要のフレームワークである。
論文 参考訳(メタデータ) (2026-01-24T11:41:54Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - Dissecting Logical Reasoning in LLMs: A Fine-Grained Evaluation and Supervision Study [40.143148197878354]
我々は3次元にわたる論理的推論を評価するためのきめ細かい評価フレームワークであるFinalLogicを紹介した。
微調整形推論能力の異なる監督形式について検討する。
自然言語の監督は一般化において優れており、シンボリックな監督は構造的に健全な原子推論のステップを打つのに優れている。
論文 参考訳(メタデータ) (2025-06-05T09:34:12Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。