論文の概要: Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreter
- arxiv url: http://arxiv.org/abs/2606.16934v1
- Date: Mon, 15 Jun 2026 16:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.770998
- Title: Exploring Extrinsic and Intrinsic Properties for Effective Reasoning with Code Interpreter
- Title(参考訳): コードインタプリタを用いた効果的な推論のための外在的・内在的特性の探索
- Authors: Patomporn Payoungkhamdee, Napat Laosaengpha, Jenta Wonglertsakul, Pittawat Taveekitworachai, Pume Tuchinda, Panjapong Poobanchuen, Ekapol Chuangsuwanich, Can Udomcharoenchaikit, Samuel Cahyawijaya, Peerat Limkonchotiwat, Sarana Nutanong,
- Abstract要約: Code Interpreter (CI)との推論は、大規模言語モデルの推論能力を高める効果的なパラダイムとして登場した。
採用が増えているにもかかわらず、効果的なコード推論の基礎となる行動特性は、ほとんど探索されていないままである。
- 参考スコア(独自算出の注目度): 30.892377449315504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning with a Code Interpreter (CI) has emerged as an effective paradigm for enhancing the reasoning capabilities of large language models (LLMs) through executable computation and iterative verification. Despite its growing adoption, the behavioral properties underlying effective code reasoning remain largely underexplored. In this work, we investigate code reasoning from two distinct perspectives inspired by prior studies of natural language reasoning: extrinsic properties, represented by crucial tokens, and intrinsic properties, represented by code-specific cognitive behaviors. Across multiple LLMs, we find that stronger CI reasoning models consistently exhibit a higher prevalence of crucial tokens and cognitive behaviors, particularly verification, backtracking, and backward chaining. Building on these observations, we examine how these properties can be leveraged during both inference and training. At inference time, appending code-specific crucial tokens improves performance on several reasoning capabilities, including mathematical, ordering, and optimization, while yielding limited benefits elsewhere. At training time, augmenting a state-of-the-art framework with code-specific cognitive behaviors improves supervised fine-tuning and reinforcement learning performance in two of three evaluated models. Further analysis shows that these behaviors reduce overthinking in incorrect responses and improve token efficiency, while also revealing factors that limit gains in a certain model. Our findings provide the first systematic characterization of effective reasoning with CI and demonstrate both the potential and limitations of leveraging key properties to improve CI-based reasoning.
- Abstract(参考訳): Code Interpreter (CI)との推論は、実行可能計算と反復検証を通じて、大規模言語モデル(LLM)の推論能力を高める効果的なパラダイムとして登場した。
採用が増えているにもかかわらず、効果的なコード推論の基礎となる行動特性は、ほとんど探索されていないままである。
本研究では、自然言語推論の先行研究から着想を得た2つの異なる視点から、重要なトークンで表される外在性特性と、コード固有の認知行動で表される内在性特性について検討する。
複数のLSM全体にわたって、強力なCI推論モデルは、重要なトークンや認知行動、特に検証、バックトラック、後方連鎖の頻度が常に高いことが分かりました。
これらの観測に基づいて,これらの特性が推論とトレーニングの両方においてどのように活用できるかを検討する。
推論時に、コード固有の重要なトークンを追加することで、数学的、順序付け、最適化など、いくつかの推論能力のパフォーマンスが向上し、他の場所では限定的なメリットが得られます。
トレーニング時には、3つの評価モデルのうち2つのモデルにおいて、コード固有の認知行動による最先端フレームワークの強化により、教師付き微調整と強化学習のパフォーマンスが向上する。
さらなる分析により、これらの行動は誤った反応の過度な考えを減らし、トークン効率を向上させるとともに、あるモデルにおける利得を制限する要因を明らかにすることが示される。
本研究は,CIを用いた効果的な推論の体系的評価を初めて提供し,CIベースの推論を改善するために重要な特性を活用する可能性と限界を実証した。
関連論文リスト
- Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training [86.70255651945602]
我々はReinforcecing Cognitive Experts(RICE)と呼ばれる新しい推論時ステアリング手法を導入する。
RICEは、追加のトレーニングや複雑化なしに推論のパフォーマンスを改善することを目的としている。
先行する MoE ベースの LRM を用いた経験的評価は、推論精度、認知効率、ドメイン間の一般化において顕著で一貫した改善を示す。
論文 参考訳(メタデータ) (2025-05-20T17:59:16Z) - Efficient Inference for Large Reasoning Models: A Survey [74.17203483365171]
LRM(Large Reasoning Models)は、Large Language Models(LLM)の推論能力を大幅に向上させる。
しかし、それらの熟考的推論プロセスはトークンの使用、メモリ消費、推論時間に非効率をもたらす。
本調査では, LRMに特化して設計された効率的な推論手法を概説し, 推論品質を維持しつつトークンの非効率を緩和することに着目した。
論文 参考訳(メタデータ) (2025-03-29T13:27:46Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [49.61246073215651]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
しかし、冗長な出力と冗長な出力による計算オーバーヘッドも大幅に発生する。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs [28.565225092457897]
強化学習は、検証可能なタスクにおける言語モデルにおける自己改善を促進することができる。
また,Qwen-2.5-3BがLlama-3.2-3Bを超えることが確認された。
我々の研究は、Qwenが自然にこれらの推論行動を示すのに対して、Llamaはこれらを欠いていることを明らかにしている。
論文 参考訳(メタデータ) (2025-03-03T08:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。