論文の概要: PACT: Privileged Trace Co-Training for Multi-Turn Tool-Use Agents
- arxiv url: http://arxiv.org/abs/2606.16215v1
- Date: Mon, 15 Jun 2026 04:46:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.088356
- Title: PACT: Privileged Trace Co-Training for Multi-Turn Tool-Use Agents
- Title(参考訳): PACT: マルチTurnツール使用エージェントのためのプリビリートトレーサライニング
- Authors: Zhenbang Du, Jun Luo, Zhiwei Zheng, Xiangchi Yuan, Kejing Xia, Dachuan Shi, Qirui Jin, Qijia He, Shaofeng Zou, Yingbin Liang, Wenke Lee,
- Abstract要約: マルチターンツール利用エージェントのためのPrivileged trAce Co-Trainingフレームワークを提案する。
キーとなる考え方は、専門家のトレースをロールアウト時間ヒントではなく、トレーニング時の最適化信号としてのみ使用することだ。
PACT は強い SFT および RL ベースのベースラインよりも一貫して改善されていることを示す。
- 参考スコア(独自算出の注目度): 57.69188221227875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-turn tool-use agents must reason, call tools, and adapt to observations across several interaction turns. Post-training such agents is challenging, as reinforcement learning often suffers from sparse rewards and weak credit assignment despite matching the prompt-only inference setting, while supervised fine-tuning on expert traces provides dense process supervision but can over-constrain the model to fixed trajectories. To tackle this, we propose PACT, a Privileged trAce Co-Training framework for multi-turn tool-use agents. The key idea is to use expert traces only as training-time optimization signals rather than rollout-time hints. PACT keeps rollout generation prompt-only, then uses expert traces to guide optimization through two complementary signals: a trace-conditioned RL surrogate that evaluates prompt-only rollouts under expert-trace context, and a component-aware SFT loss that supervises reasoning prefixes and tool-calls with annealed strength. To reduce over-reliance on the training-only trace context, PACT further introduces a prompt-only anchoring. We also provide a latent-trace view that connects the two trace-based objectives and explains how expert traces can guide optimization without being used during rollout generation. Experiments on FTRL, BFCL, and ToolHop show that PACT consistently improves over strong SFT- and RL-based baselines, highlighting the value of privileged trace co-training for multi-turn tool-use learning.
- Abstract(参考訳): マルチターンツール使用エージェントは、複数のインタラクションターンにわたる観察に理由付け、ツールを呼び、適応する必要があります。
このようなエージェントの訓練後、強化学習は、プロンプトのみの推論設定に適合するにもかかわらず、スパース報酬と弱い信用割り当てに悩まされることが多いが、専門家のトレースを監督した微調整は、密集したプロセスの監督を提供するが、固定軌跡にモデルを過度に拘束することができる。
そこで本研究では,マルチターンツール利用エージェントのためのPACT(Privleged trAce Co-Training framework)を提案する。
キーとなる考え方は、専門家のトレースをロールアウト時間ヒントではなく、トレーニング時の最適化信号としてのみ使用することだ。
PACTはロールアウト生成プロンプトのみを継続し、その後、専門家トレースを使用して2つの補完信号を通して最適化をガイドする: トレース条件付きRLサロゲートは、専門家トレースコンテキスト下でプロンプトのみのロールアウトを評価する。
トレーニングのみのトレースコンテキストへの過度な依存を軽減するため、PACTはさらにプロンプトのみのアンカーを導入している。
また、2つのトレースベースの目的を接続する潜在トレースビューを提供し、専門家のトレースがロールアウト生成に使用せずに最適化をガイドする方法を説明します。
FTRL、BFCL、ToolHopの実験では、PACTは強力なSFTとRLベースのベースラインよりも一貫して改善されており、マルチターンツール利用学習における特権的トレースコトレーニングの価値を強調している。
関連論文リスト
- Self-Play Enhancement via Advantage-Weighted Refinement in Online Federated LLM Fine-Tuning with Real-Time Feedback [37.79391516435725]
フェデレートされたフィードバックの微調整のための効率的なオンライン学習アルゴリズムSPEARを紹介する。
我々はSPEARを様々なベンチマークデータセットで検証し、最先端のベースラインと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2026-05-08T16:35:42Z) - Waking Up Blind: Cold-Start Optimization of Supervision-Free Agentic Trajectories for Grounded Visual Perception [18.565166776233223]
SVLM(Small Vision-Language Models)は効率的なタスクコントローラであるが、視覚的脆さとツールオーケストレーションの貧弱さに悩まされることが多い。
SPECTRA(Cascaded Tool Rollout Alignment)で実現可能な自己教師型知覚法を提案する。
SPECTRAはSVLMのコールドスタート強化学習を通じてエージェント機能をブートストラップする。
論文 参考訳(メタデータ) (2026-04-19T15:06:30Z) - Multimodal Latent Reasoning via Predictive Embeddings [43.40267514669565]
Pearlは、専門的なツール使用トラジェクトリから学習するフレームワークである。
Pearlはモデルに依存しず、トレーニングが簡単で、複数のツールコールでトラジェクトリを自然にサポートする。
論文 参考訳(メタデータ) (2026-04-09T10:27:32Z) - In-Context Reinforcement Learning for Tool Use in Large Language Models [68.66653829365187]
大規模言語モデル(LLM)は強力な推論能力を示すが、複雑なタスクにおける性能は内部知識によって制約されることが多い。
In-Context Reinforcement Learning (ICRL) を提案する。
ICRLは最先端のパフォーマンスを実現し、従来のSFTベースのパイプラインに代わるスケーラブルでデータ効率の高い代替手段としての有効性を示す。
論文 参考訳(メタデータ) (2026-03-09T08:06:18Z) - Learning in Context, Guided by Choice: A Reward-Free Paradigm for Reinforcement Learning with Transformers [55.33468902405567]
本稿では、事前学習とデプロイの両方が好みのフィードバックにのみ依存する新しい学習パラダイム、In-Context Preference-based Reinforcement Learning (ICPRL)を提案する。
ICPRLは、厳密なコンテキスト内一般化を可能にし、完全な報酬管理で訓練されたICRLメソッドに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-02-09T03:42:16Z) - SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Just-in-time Episodic Feedback Hinter: Leveraging Offline Knowledge to Improve LLM Agents Adaptation [77.90555621662345]
JEF Hinterは、オフライントレースをコンパクトでコンテキスト対応のヒントに蒸留するエージェントシステムである。
ズーム機構は、長い軌道における決定的なステップを強調し、戦略と落とし穴の両方をキャプチャする。
MiniWoB++、WorkArena-L1、WebArena-Liteの実験は、JSF Hinterが一貫して強力なベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-05T21:34:42Z) - ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation [57.399685080574756]
既存のMLLMベースのVLNメソッドは模倣学習(IL)に依存しており、ポストトレーニングにDAggerを使用することが多い。
マルチターンRLによるアクティブな探索を可能にするVLNフレームワークであるActiveVLNを提案する。
実験の結果,ActiveVLN は DAgger ベースと RL ベースのポストトレーニング手法と比較して,IL ベースラインよりも最大の性能向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-09-16T03:31:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。