論文の概要: Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2606.08974v1
- Date: Mon, 08 Jun 2026 03:17:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.674537
- Title: Diverse Thinking Schemata Elicit Better Reasoning in Large Language Models
- Title(参考訳): 大規模言語モデルにおける多言語思考スキーマによる推論の改善
- Authors: Xinyue Liang, Yizhe Yang, Yu Bai, Bin Xu, Jiawei Li, Yang Gao,
- Abstract要約: 推論プロセスの2つの批判的かつ過小評価された側面に注目します。
思考スキーマの多様性とモデル性能の相関を観察する。
本稿では,まず,スキーマを意識したモデルを実現するためのフレームワークであるDiverseta Policy Optimization (DiScO)を提案する。
- 参考スコア(独自算出の注目度): 24.185783626370213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) have attracted increasing attention for their ability to solve complex mathematical problems by generating extended reasoning chains. In this work, we focus on two critical yet underexplored aspects of the reasoning process: reasoning transitions capturing the distinct transitions between reasoning steps and answer candidates reflecting the variety of solution paths produced by the model. We collectively define these two aspects as thinking schemata. We observe a correlation between the diversity of thinking schemata and model performance, which motivates us to enhance diversity as a means to further improve reasoning potential. To this end, we propose Diverse Schemata Policy Optimization (DiScO), a framework that first endows the model with schemata awareness, then encourages diversity through reinforcement learning, and further promotes diverse reasoning at inference time. Experiments on multiple mathematical reasoning benchmarks demonstrate that DiScO consistently outperforms standard group relative policy optimization. Beyond accuracy, human-annotated analyses show that DiScO substantially improves the model's ability to recover from erroneous initial attempts. Overall, our work suggests the important role that diversity of the thinking schemata plays and points to scaling along the diversity dimension as a promising research direction.
- Abstract(参考訳): 大規模推論モデル(LRM)は、拡張された推論連鎖を生成することで複雑な数学的問題を解く能力に注目が集まっている。
本研究では、推論過程の2つの批判的かつ未解明な側面、すなわち、推論ステップ間の異なる遷移を捉えた推論遷移と、モデルが生成する様々な解経路を反映した回答候補に焦点を当てる。
これら2つの側面を集合的に思考スキーマとして定義する。
我々は,思考スキーマの多様性とモデル性能の相関関係を観察し,推論可能性をさらに向上する手段として,多様性の向上を動機付けている。
この目的のために、まずモデルにスキーマ認識を付与し、次に強化学習を通じて多様性を奨励し、推論時の多様な推論を促進するフレームワークであるDiverse Schemata Policy Optimization (DiScO)を提案する。
複数の数学的推論ベンチマークの実験は、DiScOが標準群相対ポリシー最適化よりも一貫して優れていることを示した。
精度を超えて、人間の注釈付き分析により、DiScOは間違った初期試行から回復するモデルの能力を大幅に改善することが示された。
全体として、我々の研究は、思考スキーマの多様性が果たす重要な役割を示唆し、将来的な研究方向として多様性の次元に沿ってスケールすることを示している。
関連論文リスト
- Walk the Talk: Bridging the Reasoning-Action Gap for Thinking with Images via Multimodal Agentic Policy Optimization [89.68681087743876]
MLLM(Multimodal Large Language Models)は,マルチターン推論において視覚ツールを積極的に呼び出すことによって,イメージで考えるモデルにインセンティブを与えている。
結果に基づく報酬を頼りにする一般的な強化学習の実践は、テキストの妥当性が経営幹部の失敗を隠蔽するという事実を無視します。
マルチモーダルエージェントポリシー最適化(MAPO)を導入し、テキスト推論とモデルが生成する視覚行動のギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T07:48:07Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - SetPO: Set-Level Policy Optimization for Diversity-Preserving LLM Reasoning [50.93295951454092]
本稿では,カーネル化類似性を用いたサンプル軌道上で定義された設定レベル多様性の目的について紹介する。
提案手法は,各サンプル軌跡に対する余剰余剰貢献を導出し,この目的を政策最適化のためのプラグイン・アドバンテージ・シェーピング用語として統合する。
様々なモデルスケールで実験を行い、提案アルゴリズムの有効性を示し、様々なベンチマークでPass@1とPass@Kの双方において、強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-01T07:13:20Z) - Reasoning Models Generate Societies of Thought [9.112083442162671]
マルチエージェントのような相互作用をシミュレートすることで、推論が強化されることが示される。
DeepSeek-R1 や QwQ-32B のような推論モデルは、命令調整モデルよりもはるかに視点の多様性を示す。
論文 参考訳(メタデータ) (2026-01-15T19:52:33Z) - Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models [28.756240721942138]
RLLM(Reasoning large language model)は、最近、構造化および多段階推論によって顕著な機能を示した。
我々は新しいICLパラダイムであるThinking with Nothinking (JointThinking)を提案する。
JointThinkingは、数発のチェーン・オブ・シークレット(CoT)を2回、過半数で上回っている。
論文 参考訳(メタデータ) (2025-08-05T12:09:55Z) - Multimodal Mathematical Reasoning with Diverse Solving Perspective [65.07953438724105]
画像探索ペア毎に複数の多様な解トラジェクトリをキャプチャする新しいデータセットであるMathV-DPを紹介する。
本稿では,Qwen-VLに基づくモデルQwen-VL-DPを提案する。
本手法は,様々な推論の観点からの学習を重視し,正しい解と異なる解を区別する。
論文 参考訳(メタデータ) (2025-07-03T17:07:20Z) - Boosting the Power of Small Multimodal Reasoning Models to Match Larger Models with Self-Consistency Training [49.3242278912771]
マルチモーダル推論(multimodal reasoning)は、複数のモーダルをまたいだモデルによる質問に答える難しいタスクである。
既存のアプローチでは、言語と視覚のモダリティを2段階の推論フレームワークに組み込むことで進歩している。
MC-CoTは,複数の合理性と回答を生成し,投票プロセスを通じて最も正確な選択を行う自己整合性学習戦略である。
論文 参考訳(メタデータ) (2023-11-23T17:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。