論文の概要: Finding the Evidence: Discovering Decision-Supporting Tokens for On-Policy Reasoning Distillation
- arxiv url: http://arxiv.org/abs/2606.22830v1
- Date: Mon, 22 Jun 2026 04:13:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:20:04.92885
- Title: Finding the Evidence: Discovering Decision-Supporting Tokens for On-Policy Reasoning Distillation
- Title(参考訳): エビデンスを見つける: オン・ポリシリ推論蒸留のための意思決定支援トークンの発見
- Authors: Jinwei Xiao, Zhuowen Han, Yueqing Sun, Zhengxi Lu, Yuxin Liu, Zhiyuan Yao, Wentao Chen, Qi Gu, Xunliang Cai,
- Abstract要約: オンライン蒸留は、高濃度のトークンレベルの監視を通じて推論能力を伝達するが、伝達可能な信号の性質は未だ不明である。
推論連鎖には、学生の不確実性を通して表面化する決定(分岐する場所)と、学生がまだ間違った自信を持つ立場に隠れている証拠(決定を正当化する中間ステップ)という、異なる発見メカニズムを必要とする2つの種類の知識が含まれていることが判明した。
本稿では,まず学生のエントロピーによる意思決定を識別し,教師と教師の分担によって促進される,意思決定アンカーと隠れ状態のコサイン類似性を通じて支援証拠を発見することを提案する。
- 参考スコア(独自算出の注目度): 17.41465157079992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: On-policy distillation transfers reasoning ability through dense token-level supervision, yet the nature of the transferable signal remains unclear. We discover that reasoning chains contain two types of knowledge that require different discovery mechanisms: decisions (where to branch), which surface through student uncertainty, and evidence (intermediate steps that justify decisions), which hides in positions where the student is confident yet wrong. Current methods capture only decisions; the substantive knowledge in evidence tokens remains untransferred. We propose DEAR(Decision-Evidence Aware Reasoning Distillation), which first identifies decisions via student entropy, then discovers their supporting evidence through hidden-state cosine similarity to decision anchors, boosted by teacher-student divergence to prioritize the largest knowledge gaps. Across three student-teacher configurations on math and code benchmarks, DEAR consistently outperforms standard OPD, with up to +2.5pp on competition math and +5.7pp on code generation.
- Abstract(参考訳): オンライン蒸留は、高濃度のトークンレベルの監視を通じて推論能力を伝達するが、伝達可能な信号の性質は未だ不明である。
推論連鎖には、学生の不確実性を通して表面化する決定(分岐する場所)と、学生がまだ間違った自信を持つ立場に隠れている証拠(決定を正当化する中間ステップ)という、異なる発見メカニズムを必要とする2つの種類の知識が含まれていることが判明した。
現在の手法は決定のみを捉えており、証拠トークンの実体的な知識は依然として伝達されていない。
本稿では,まず学生のエントロピーによる意思決定を識別するDEAR(Decision-Evidence Aware Reasoning Distillation)を提案する。
数学とコードのベンチマークに関する3つの生徒-教師構成の中で、DEARは標準のPDよりも高いパフォーマンスを示しており、競合数学では最大2.5pp、コード生成では+5.7ppである。
関連論文リスト
- Surfacing Isolated Learners with Outcome-Independent Mediation of Feedback between Teachers and Students Using AI [1.6637373649145608]
そこで本稿では,評価基準やポストホックな結果ラベルを使わずに,注意を要する話題をランク付けする透明なメカニズムを提案する。
このアプローチは、学生の学習困難度、学習者の自己報告と観察困難との相違、未解決の教師の懸念の3つのシグナルを組み合わせたものである。
論文 参考訳(メタデータ) (2026-05-28T02:00:06Z) - Not All Disagreement Is Learnable: Token Teachability in On-Policy Distillation [28.572361799234784]
生のKL不一致が学習価値の粗いプロキシであることを示す。
我々はこの局所的な互換性をトークンの教育可能性として定式化する。
軽量なトークン配置選択法であるTeachability-Aware OPDを提案する。
論文 参考訳(メタデータ) (2026-05-26T10:56:46Z) - Distinguishable Deletion: Unifying Knowledge Erasure and Refusal for Large Language Model Unlearning [58.725080160369494]
Distinguishable Deletion (mathrmD2$)は、特定のトークンではなく、潜在表現の応答分布を制限するパラダイムである。
本稿では,知識の存在と未学習コンテンツと保持コンテンツとの分離を定量化するエネルギー指標を提案する。
実験の結果、EUAは以前の方法よりも大幅に優れており、$mathrmD2$の優位性を示している。
論文 参考訳(メタデータ) (2026-05-16T03:15:35Z) - Anti-Self-Distillation for Reasoning RL via Pointwise Mutual Information [22.436966302243565]
本稿では,学生と教師の相違を増す反自己蒸留法を提案する。
AntiSDはGRPOベースラインの精度を2倍から10倍にし、最終精度を最大11.5ポイント向上させる。
論文 参考訳(メタデータ) (2026-05-12T06:40:43Z) - Towards Transparent AI Grading: Semantic Entropy as a Signal for Human-AI Disagreement [2.6293270655263385]
そこで本研究では,GPT-4が生成する複数の生徒の反応の変動性の尺度であるセマンティックエントロピーを紹介した。
我々の研究は、セマンティックエントロピーを、より透明で信頼性の高いAI支援グレーディングをサポートする、解釈可能な不確実性信号として位置づけた。
論文 参考訳(メタデータ) (2025-08-06T06:02:14Z) - Implicit Chain of Thought Reasoning via Knowledge Distillation [58.80851216530288]
思考推論ステップの連鎖を明示的に生成する代わりに、言語モデルの内部の隠れ状態を使用して暗黙の推論を行います。
このアプローチにより、明示的にチェーン・オブ・シントなしでは解決不可能なタスクを、非チェーン・オブ・シントに匹敵する速度で解決できることが分かりました。
論文 参考訳(メタデータ) (2023-11-02T17:59:49Z) - Decker: Double Check with Heterogeneous Knowledge for Commonsense Fact
Verification [80.31112722910787]
異種知識をブリッジ可能な常識的事実検証モデルであるDeckerを提案する。
CSQA2.0とCREAKの2つのコモンセンス事実検証ベンチマークデータセットの実験結果から,Deckerの有効性が示された。
論文 参考訳(メタデータ) (2023-05-10T06:28:16Z) - Switchable Online Knowledge Distillation [68.2673580932132]
オンライン知識蒸留(OKD)は、教師と学生の違いを相互に活用することで、関係するモデルを改善する。
そこで我々は,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。
論文 参考訳(メタデータ) (2022-09-12T03:03:40Z) - DISSECT: Disentangled Simultaneous Explanations via Concept Traversals [33.65478845353047]
DISSECTは、ディープラーニングモデル推論を説明するための新しいアプローチである。
DISSECTは、分類器の信号から生成モデルを訓練することにより、異なる概念の分類器固有の「名詞」を発見する方法を提供する。
DISSECTは,複数の概念を分離し,共同訓練による推論と結合したCTを生成する。
論文 参考訳(メタデータ) (2021-05-31T17:11:56Z) - A Weaker Faithfulness Assumption based on Triple Interactions [89.59955143854556]
より弱い仮定として, 2$-adjacency faithfulness を提案します。
より弱い仮定の下で適用可能な因果発見のための音方向規則を提案する。
論文 参考訳(メタデータ) (2020-10-27T13:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。