論文の概要: CATPO: Critique-Augmented Tree Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.08346v1
- Date: Sat, 06 Jun 2026 21:29:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.051488
- Title: CATPO: Critique-Augmented Tree Policy Optimization
- Title(参考訳): CATPO: 批判強化ツリーポリシー最適化
- Authors: Ayush Singh, Umang Goyal, Ankur Dahiya,
- Abstract要約: CATPO(Critique-Augmented Tree Policy Optimization)を導入し,この廃棄物を木レベルで診断・処理する。
CATPOはまず、木の情報度スコア(F(T))を介して各木をスコアし、葉のアウトカムの多様性と政策回帰のデコリレーションをゼロの余剰計算で組み合わせる。
MATHデータセットでトレーニングされたQwen2.5-Math-1.5Bの実験では、CATPOは4つのベンチマークで37.5%のマクロ精度を達成した。
- 参考スコア(独自算出の注目度): 2.2734015467359217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a dominant paradigm for improving the reasoning capabilities of large language models (LLMs). Recent tree-based methods such as TreeRPO extend flat trajectory sampling with tree-structured rollouts to obtain dense, step-level reward signals without a separate process reward model. However, not all trees are equally informative: trees where all leaves succeed, all leaves fail, or the policy already predicts the reward distribution contribute little to gradient updates, wasting compute. We introduce CATPO (Critique-Augmented Tree Policy Optimization), which diagnoses and addresses this waste at the tree level. CATPO first scores each tree via a tree informativeness score, F(T), combining leaf-outcome diversity with policy-reward decorrelation at zero extra compute. For dead-wrong trees where all branches fail, CATPO applies critique-guided healing: it locates the shallowest failure point, generates a natural-language critique, and grafts refined continuations to recover training signal. Finally, an informativeness-weighted loss scales each tree's gradient contribution by its normalized score, concentrating parameter updates on the most informative trees while preserving overall gradient magnitude. Experiments on Qwen2.5-Math-1.5B trained with the MATH dataset show that CATPO achieves 37.5% macro accuracy across four benchmarks (AIME24, MATH-500, OlympiadBench, and MinervaMath), improving over TreeRPO by 1.9% and GRPO by 4.8%.
- Abstract(参考訳): 検証可能な報奨(RLVR)による強化学習は,大規模言語モデル(LLM)の推論能力向上のための主要なパラダイムとなっている。
TreeRPOのような最近のツリーベース手法は、木構造ロールアウトによる平坦な軌道サンプリングを拡張して、独立したプロセス報酬モデルなしで密度の高いステップレベルの報酬信号を得る。
すべての葉が成功する木、すべての葉が失敗する木、あるいはポリシーがすでに報酬分布を予測している木は、勾配の更新にはほとんど寄与せず、計算を無駄にする。
CATPO(Critique-Augmented Tree Policy Optimization)を導入し,この廃棄物を木レベルで診断・処理する。
CATPOはまず、木の情報度スコア(F(T))を介して各木をスコアし、葉のアウトカムの多様性と政策回帰のデコリレーションをゼロの余剰計算で組み合わせる。
すべての枝が失敗する枯れ果樹では、CATPOは、最も浅い障害点を特定し、自然言語の批判を生成し、訓練信号の回復のために洗練された継続を移植する。
最後に、情報度重み付き損失は、その正規化スコアによって各木の勾配寄与をスケールし、全体的な勾配等級を保ちながら、最も情報性の高い木のパラメータ更新に集中する。
MATHデータセットでトレーニングされたQwen2.5-Math-1.5Bの実験では、CATPOは4つのベンチマーク(AIME24、MATH-500、OlympiadBench、MinervaMath)で37.5%のマクロ精度を実現し、TreeRPOを1.9%、GRPOを4.8%改善した。
関連論文リスト
- TreeGrad-Ranker: Feature Ranking via $O(L)$-Time Gradients for Decision Trees [73.0940890296463]
確率値は、決定木の局所的な予測値を説明する特徴のランク付けに使用される。
TreeGradは、共同目的の多重線型拡張の勾配を$O(L)$時間で計算する。
TreeGrad-Rankerは、機能ランキングを生成するために共同目標を最適化しながら、勾配を集約する。
TreeGrad-Shapは、積分パラメータを持つベータシェープ値を計算するための数値的に安定なアルゴリズムである。
論文 参考訳(メタデータ) (2026-02-12T06:17:12Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRPO: Tree Relative Policy Optimization [65.51935468270916]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - Can a Single Tree Outperform an Entire Forest? [5.448070998907116]
一般的な考え方は、単一の決定木は、テスト精度において古典的なランダムな森林を過小評価する。
本研究では,斜め回帰木の試験精度を大幅に向上させることで,このような考え方に挑戦する。
本手法は,木習熟を非制約最適化タスクとして再編成する。
論文 参考訳(メタデータ) (2024-11-26T00:18:18Z) - Learning a Decision Tree Algorithm with Transformers [75.96920867382859]
メタ学習によってトレーニングされたトランスフォーマーベースのモデルであるMetaTreeを導入し、強力な決定木を直接生成する。
我々は、多くのデータセットに欲求決定木とグローバルに最適化された決定木の両方を適合させ、MetaTreeを訓練して、強力な一般化性能を実現する木のみを生成する。
論文 参考訳(メタデータ) (2024-02-06T07:40:53Z) - Improving the Validity of Decision Trees as Explanations [2.457872341625575]
葉ノード間の最大誤分類誤差を最小限に抑えるために,浅い木を訓練する。
浅い木の全体的な統計性能は最先端の手法に匹敵する。
論文 参考訳(メタデータ) (2023-06-11T21:14:29Z) - SETAR-Tree: A Novel and Accurate Tree Algorithm for Global Time Series
Forecasting [7.206754802573034]
本稿では,TARモデルと回帰木との密接な関係について検討する。
本研究では,葉のグローバルプール回帰(PR)モデルをトレーニングする,予測固有木アルゴリズムを提案する。
本評価では, 提案した樹木モデルと森林モデルを用いて, 最先端の樹木モデルよりも精度の高い木モデルを提案する。
論文 参考訳(メタデータ) (2022-11-16T04:30:42Z) - SoftTreeMax: Policy Gradient with Tree Search [72.9513807133171]
我々は、ツリー検索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介します。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。
論文 参考訳(メタデータ) (2022-09-28T09:55:47Z) - Optimal trees selection for classification via out-of-bag assessment and
sub-bagging [0.0]
一般に、木ベースの機械学習手法の予測性能は、トレーニングデータのサイズが大きくなるにつれて低下して改善される。
本研究では,本手法が内部検証によるトレーニング観測から学習できない最適樹木アンサンブル(OTE)について検討する。
そこで本研究では,OTEが内部検証における学習観察の損失を補うため,修正木選択法を提案する。
論文 参考訳(メタデータ) (2020-12-30T19:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。