論文の概要: LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents
- arxiv url: http://arxiv.org/abs/2606.18388v1
- Date: Tue, 16 Jun 2026 18:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.847934
- Title: LLMZero: Discovering Adaptive Training Strategies for RL Post-Training via LLM Agents
- Title(参考訳): LLMZero:LLMエージェントによるRL後トレーニングのための適応的トレーニング戦略の発見
- Authors: Haoyang Fang, Wei Zhu, Boran Han, Alex Zhang, Zhenyu Pan, Shuo Yang, Shuai Zhang, Jiading Gai, Peng Tang, Cuixiong Hu, Xuan Zhu, Huzefa Rangwala, George Karypis, Bernie Wang,
- Abstract要約: トレーニング後の戦略はデータセットに依存しており、繰り返し発生する経験的パターンを明らかにする。
正規化パラメータは、シフトトレーニングのダイナミクスに応答して発振する。
我々は,LLMエージェントが木探索を通じて学習軌跡を探索するシステムを用いた。
- 参考スコア(独自算出の注目度): 51.74109282213905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RL post-training strategies are dataset-dependent and reveal a recurring empirical pattern: capacity parameters accumulate monotonically across stages, while regularization parameters predominantly oscillate in response to shifting training dynamics. This distinction matters because fixed schedules commit all parameters to fixed trajectories and therefore cannot express the non-stationary exploration-exploitation tradeoffs that regularization must track; the principle provides actionable design rules for multi-stage training. We discover this through LLMZero, a system where LLM agents search over training trajectories via tree search, diagnosing pathologies at each checkpoint and proposing coordinated multi-parameter transitions. Across 4 diverse GRPO tasks, LLMZero discovers strategies that improve over the base model by 9% to 140% relative and over grid search by 6% to 15% relative, consistently outperforming random search and the skill-based agent. The structural principle transfers across tasks, providing an explanation for why discovered strategies take qualitatively different forms yet share similar parameter dynamics.
- Abstract(参考訳): キャパシティパラメータはステージ毎に単調に蓄積され、正規化パラメータはシフトトレーニングのダイナミクスに応じて主として振動する。
この区別は、固定スケジュールが全てのパラメータを固定軌道にコミットするので、正規化が追跡すべき静止しない探索・探索のトレードオフを表現できないためである。
LLMエージェントが木探索、各チェックポイントでの病理診断、協調した多パラメータ遷移の提案を通じて、トレーニング軌跡を探索するシステムであるLLMZeroを通してこれを発見する。
LLMZeroは、4つの多様なGRPOタスクにわたって、ベースモデルよりも9%から140%、グリッドサーチより6%から15%改善する戦略を発見し、ランダムサーチとスキルベースエージェントを一貫して上回る。
構造原理はタスク間で伝達され、発見された戦略が定性的に異なる形式を取るが、同様のパラメータのダイナミクスを共有する理由を説明する。
関連論文リスト
- Dynamic Latent Routing [3.2461838619378702]
我々は、ジェネラル・ディクストラ・サーチ(GDS)を導入し、中間的最適部分政治の時間的構成により、グローバルなゴール獲得ポリシーを復元できることを証明した。
GDSの根底にある「探索、選択、更新」原理に触発され、単一の訓練段階において動的探索を通して離散潜在コード、ルーティングポリシー、モデルパラメータを共同学習する言語モデル後学習法である動的潜時ルーティング(DLR)を提案する。
論文 参考訳(メタデータ) (2026-05-14T03:35:46Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning [20.442971494407896]
大規模言語モデル (LLM) は推論タスクにおいて顕著な進歩を遂げているが、スーパービジョンファインチューニング (SFT) と強化学習 (RL) の最適統合は依然として根本的な課題である。
本稿では,エントロピーを考慮した重み付け機構により,両方のファインチューニングパラダイムを統一する単一ステージ手法であるSupervised Reinforcement Fine-Tuning (SRFT)を提案する。
大規模な実験の結果、SRFTは平均精度59.1%に達し、5つの数学的推論ベンチマークでは0-RL法を9.0%上回り、3つのアウト・オブ・ディストリビューションベンチマークでは10.9%を上回った。
論文 参考訳(メタデータ) (2025-06-24T16:31:37Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。