論文の概要: The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning
- arxiv url: http://arxiv.org/abs/2606.16152v1
- Date: Mon, 15 Jun 2026 03:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.047962
- Title: The Quality-Utility Paradox: Why High-Reward Data Impairs Small Model Mathematical Reasoning
- Title(参考訳): 品質と実用のパラドックス:なぜ逆データが小さなモデル数学的推論を損なうのか
- Authors: Haolong Qian, Xianliang Yang, Yinuo ma, Lirong Che, Feng Lu, Ye Guo, Lei Song, Jiang Bian, Chun Yuan,
- Abstract要約: より強力なOracleによって洗練または合成されたデータは、報酬モデルに従って高い品質を得る。
我々の分析によると、Oracleの洗練は、SLMのネイティブな推論分布から逸脱した分布的ドリフトによる論理的修復と結合している。
これらの結果から, 有効数学的推論蒸留法は, 認識された解の質と学習者データの互換性を協調的に最適化することが示唆された。
- 参考スコア(独自算出の注目度): 54.477658074293885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge distillation from powerful reasoning models is widely used to improve Small Language Models (SLMs) on mathematical reasoning, often assuming that traces with higher reward model scores provide more useful supervision. We identify a counterintuitive \textbf{Quality-Utility Paradox} in mathematical reasoning distillation. Data refined or synthesized by a stronger Oracle obtains higher perceived quality according to reward models, yet consistently underperforms traces generated by the SLM itself and selected through rejection sampling across Qwen2.5, LLaMA-3, and DeepSeek families. Our analysis shows that Oracle refinement couples logical repair with distributional drift away from the SLM's native reasoning distribution. This drift increases the learner's adaptation cost and can outweigh the benefit of improved reasoning logic. To test this mechanism, we introduce \textbf{Style-Aligned Refinement}, which preserves the native trajectory of the SLM while retaining logical repair from the Oracle. This intervention lowers adaptation cost and restores downstream utility. These findings suggest that effective mathematical reasoning distillation should jointly optimize perceived solution quality and learner-data compatibility, rather than relying solely on reward-model scores. The datasets and code are available at https://github.com/Dracoqhl/Quality-Utility-Paradox.
- Abstract(参考訳): 強力な推論モデルからの知識蒸留は、数学的推論において小言語モデル(SLM)を改善するために広く用いられ、しばしばより高い報酬モデルスコアを持つトレースがより有用な監督を提供すると仮定する。
数学的推論蒸留における反直観的 \textbf{Quality-Utility Paradox} を同定する。
より強力なOracleによって洗練または合成されたデータは、報酬モデルに従って高い品質を得るが、SLM自身によって生成されるトレースを一貫して過小評価し、Qwen2.5、LLaMA-3、DeepSeekファミリのリジェクションサンプリングによって選択される。
我々の分析によると、Oracleの洗練は、SLMのネイティブな推論分布から逸脱した分布的ドリフトによる論理的修復と結合している。
このドリフトは学習者の適応コストを高め、推論ロジックの改善の利点を上回ることができる。
このメカニズムをテストするために,Oracle からの論理的修復を維持しながら SLM のネイティブな軌道を保ちながら,SLM のネイティブな軌道を保った \textbf{Style-Aligned Refinement} を導入する。
この介入は適応コストを下げ、下流のユーティリティを復元する。
これらの結果から, 有効数学的推論蒸留法は, 報酬モデルスコアのみに頼るのではなく, 認識された解の質と学習者データの適合性を協調的に最適化することが示唆された。
データセットとコードはhttps://github.com/Dracoqhl/Quality-Utility-Paradoxで公開されている。
関連論文リスト
- Can Recommender Systems Teach Themselves? A Recursive Self-Improving Framework with Fidelity Control [82.30868101940068]
本稿では,外部データや教師モデルに依存することなく,モデルが自身のパフォーマンスをブートストラップするパラダイムを提案する。
我々の理論的分析は、RSIRがデータ駆動型暗黙正則化器として機能し、最適化景観を円滑にしていることを示している。
より小さなモデルであっても利点があり、弱いモデルはより強力なモデルに対して効果的なトレーニングカリキュラムを生成することができることを示す。
論文 参考訳(メタデータ) (2026-02-17T15:31:32Z) - Generating Data-Driven Reasoning Rubrics for Domain-Adaptive Reward Modeling [21.45871501724415]
高精度な推論モデルエラーを自動的に構築するデータ駆動型手法を提案する。
ラグビーはより強力なLSM-as-judge報酬関数を構築するのに使うことができる。
この拡張は、ゴールドラベルの完全なデータセットなしで複雑な技術的問題を解決するモデルを教えるための扉を開く。
論文 参考訳(メタデータ) (2026-02-06T15:51:52Z) - Learning to Reason in LLMs by Expectation Maximization [55.721496945401846]
我々は推論を潜在変数モデルとして定式化し、推論を学ぶための期待最大化目標を導出する。
この見解はEMと現代の報酬に基づく最適化を結びつけるものであり、正しい答えを正当化する有理性を生成するサンプリング分布を設計することの主な課題であることを示している。
論文 参考訳(メタデータ) (2025-12-23T08:56:49Z) - Making Mathematical Reasoning Adaptive [61.45161826629692]
大規模言語モデル(LLM)における適応推論を実現するためのAdaRフレームワークを提案する。
AdaRは可変値によって論理的に等価なクエリを合成し、これらのデータに基づいてRLVRでモデルを訓練し、スプリアス論理をペナルライズする。
実験により, AdaRはロバスト性や一般化を向上し, 数学的推論の大幅な改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-10-06T09:30:05Z) - Mitigating Spurious Correlations Between Question and Answer via Chain-of-Thought Correctness Perception Distillation [25.195244084313114]
CoPeD (Chain-of-Thought Correctness Perception Distillation) は,学生モデルの推論品質の向上を目的としている。
CoPeDは学生モデルに対して、正しい合理性に基づいて回答を予測し、誤ったときに修正するよう推奨する。
論文 参考訳(メタデータ) (2025-09-06T05:33:17Z) - From Answers to Rationales: Self-Aligning Multimodal Reasoning with Answer-Oriented Chain-of-Thought [43.07899102255169]
現在のメソッドは主に肯定的な論理に重点を置いており、通常は手動のアノテーションや複雑なシステムに依存している。
textbfSelf-Aligning textbfMultimodal Reasoning with textbfAnswertextbfriented Chain-of-textbfThought。
論文 参考訳(メタデータ) (2025-07-01T08:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。