論文の概要: Drowning in Routine: Signal Dilution in Multi-Turn Agent Training
- arxiv url: http://arxiv.org/abs/2606.22164v1
- Date: Sat, 20 Jun 2026 17:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 22:28:48.908708
- Title: Drowning in Routine: Signal Dilution in Multi-Turn Agent Training
- Title(参考訳): ルーチンの製図:マルチターンエージェントトレーニングにおける信号希釈
- Authors: Yann Pernot, Vi Retault,
- Abstract要約: マルチターンエージェントは、連続した決定をルーチン実行とインターリーブする。
決定密度(Decision density)は、トラジェクティブレベルのクレジット代入のコストを管理する。
高い決定密度では、トラジェクトリレベルの手法は、批評家のコストを回避しながら競争力を維持することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn agents interleave consequential decisions with routine execution: some actions change the downstream return distribution, while others are necessary but reward-equivalent. The cost of trajectory-level credit assignment, often attributed to long horizons, is in fact governed by decision density $ρ$: the fraction of turns whose actions affect the return. When decision density is low, routine turns create signal dilution: they add gradient variance to trajectory-level estimators such as GRPO without adding expected signal. Under explicit assumptions, the resulting turn-level to trajectory-level signal-to-noise ratio scales as $ρ^{-1/2}$, provided critic error remains controlled. The same analysis identifies the complementary regime: at high decision density, trajectory-level methods can remain competitive while avoiding the cost of a critic. In a controlled environment where $ρ$ is exactly tunable, the predicted scaling is recovered with $R^2 = 0.999$, and the training-step gap widens significantly as $ρ\to 0$.
- Abstract(参考訳): マルチターンエージェントは、連続的な決定とルーチンの実行をインターリーブする。
軌道レベルのクレジット代入のコストは、しばしば長い地平線に起因するが、実際は決定密度$ρ$によって支配される。
決定密度が低い場合、ルーチンは信号の希釈を発生させ、予測信号を追加することなくGRPOのような軌道レベルの推定器に勾配分散を加える。
明示的な仮定の下では、結果として生じる軌道レベルから軌道レベルへの信号-雑音比は$ρ^{-1/2}$とスケールされる。
高い決定密度では、トラジェクティブレベルの手法は、批評家のコストを回避しながら競争力を維持することができる。
ρ$が正確に調整可能な制御環境では、予測スケーリングは$R^2 = 0.999$で回復され、トレーニングステップギャップは$ρ\to 0$と大幅に拡大する。
関連論文リスト
- Bandit Convex Optimization with Gradient Prediction Adaptivity [56.816177049016794]
本研究では, 楽観的な勾配予測が, 最悪の後悔の保証を予測順応的に改善できるかどうかを考察する。
鍵となるアイデアは、分散が勾配ノルムではなく予測誤差でスケールする、新しい分散還元勾配推定器である。
我々は、$(sqrtmathbbE[S_T])$としてスケールする情報理論の下限を確立し、最も達成可能な予測適応的後悔の基本的な特徴を提供する。
論文 参考訳(メタデータ) (2026-05-21T08:57:38Z) - Holder Policy Optimisation [26.521180498291717]
textbfHlderPOは、一般的なポリシー最適化フレームワークである。
トークンレベルの確率アグリゲーションをHlder平均を介して統一する。
複数の数学ベンチマークにおいて、最先端の平均精度は54.9%である。
論文 参考訳(メタデータ) (2026-05-12T12:45:03Z) - Signal Reshaping for GRPO in Weak-Feedback Agentic Code Repair [36.31472731207028]
このようなフィードバックの下で,標準GRPOの信号再構成について検討する。
完全な信号整形GRPOは、厳密なコンパイルとシーケンスの精度を改善する。
論文 参考訳(メタデータ) (2026-05-08T05:41:25Z) - From $\boldsymbol{\logπ}$ to $\boldsymbolπ$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight [6.07556923512707]
Reinforcement Learning with Verifiable Rewards (RLVR)は、Large Language Model (LLM)推論の飛躍を触媒しているが、その最適化のダイナミクスは脆弱である。
GRPOのような標準的なアルゴリズムはハードクリッピングを通じて安定性を強制する。
本稿では,重要サンプリング比に基づくデカップリング崩壊機構を用いたデカップリング・グラディエント・ポリシー・最適化(DGPO)を提案する。
論文 参考訳(メタデータ) (2026-03-15T14:00:48Z) - Optimal Unconstrained Self-Distillation in Ridge Regression: Strict Improvements, Precise Asymptotics, and One-Shot Tuning [61.07540493350384]
自己蒸留(英: Self-distillation, SD)とは、教師自身の予測と地道の混合で学生を訓練する過程である。
任意の予測リスクに対して、各正規化レベルにおいて、最適に混合された学生がリッジ教師に改善されることが示される。
本稿では,グリッド探索やサンプル分割,再構成なしに$star$を推定する一貫したワンショットチューニング手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T17:21:15Z) - Algorithm-Relative Trajectory Valuation in Policy Gradient Control [12.29802562975378]
政策段階制御において,軌道値が学習アルゴリズムにどう依存するかを考察する。
不確実なLQRにおけるトラジェクティブシェープを用いて,バニラReINFORCEの下でのPE(Persistence of Excitation)と限界値との負の相関を見出した。
論文 参考訳(メタデータ) (2025-11-11T06:25:52Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。