Fugu-MT 論文翻訳(概要): Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

論文の概要: Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning

arxiv url: http://arxiv.org/abs/2606.23112v1
Date: Mon, 22 Jun 2026 09:56:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 00:05:04.08881
Title: Self-Evolution for Multi-Turn Tool-Calling Agents via Divergence-Point Preference Learning
Title（参考訳）: 分岐点選好学習による多軸工具搬送エージェントの自己進化
Authors: Jiaqiang Tang,
Abstract要約: マルチターンツール利用エージェントは、対話状態とポリシー制約を追跡しながら、長い水平ツールシーケンスを調整する必要がある。ベンチマーク内での自己改善のために、ToolGraphは、スキーマ由来のトポロジ、成功したロールアウトから推定されるトランジッションウェイト、書き込み前提条件と繰り返し検索ループに対する履歴対応コントロールを組み合わせたものだ。次に、状態ベースのマッチングとプレフィックスベースのアライメントによる分岐点の配置、アクション修正アノテーションによるフィルタリング、推論で使用されるツールグラフのコンテキストでDPOをトレーニングすることで、161の選好ペアを構築します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-turn tool-using agents must coordinate long-horizon tool sequences while tracking dialogue state and policy constraints. Existing approaches often separate inference-time orchestration from parameter-level learning, leaving tool selection weakly structured and preference updates vulnerable to train--deployment prompt mismatch. For within-benchmark self-improvement, ToolGraph combines schema-derived topology, transition weights estimated from successful rollouts, and history-aware controls for write prerequisites and repeated-search loops. We then construct 161 preference pairs by locating divergence points via state-based matching and prefix-based alignment, filtered through action-correctness annotations, and train DPO under the same ToolGraph context used at inference. Across 375 tau2-bench tasks, ToolGraph raises the weighted average reward from 0.304 to 0.338 (+11.2% relative), while ToolGraph+DPO reaches 0.355 (+16.8% over the baseline), with the DPO gain concentrated in airline and retail. Fine-grained diagnostics further show that roughly half of telecom trajectories exhaust the step budget before action execution and that chosen reward positivity is the most useful checkpoint signal across our 16 evaluated DPO configurations.
Abstract（参考訳）: マルチターンツール利用エージェントは、対話状態とポリシー制約を追跡しながら、長い水平ツールシーケンスを調整する必要がある。既存のアプローチでは、推論時のオーケストレーションとパラメータレベルの学習を分離することが多く、ツールの選択は弱く構造化されている。ベンチマーク内での自己改善のために、ToolGraphは、スキーマ由来のトポロジ、成功したロールアウトから推定されるトランジッションウェイト、書き込み前提条件と繰り返し検索ループに対する履歴認識コントロールを組み合わせたものだ。次に、状態ベースのマッチングとプレフィックスベースのアライメントによる分岐点の配置、アクション修正アノテーションによるフィルタリング、推論で使用されるツールグラフのコンテキストでDPOをトレーニングすることで、161の選好ペアを構築します。 375のtau2-benchタスク全体で、ToolGraphは重み付き平均報酬を0.304から0.338(+11.2%)に引き上げ、ToolGraph+DPOは0.355(+16.8%)に達し、DPOは航空会社や小売業に集中している。さらに詳細な診断では、通信路の約半数が行動実行前のステップ予算を浪費しており、選択された報酬陽性が16のDPO構成の中で最も有用なチェックポイント信号であることが示された。

関連論文リスト

HyperTool: Beyond Step-Wise Tool Calls for Tool-Augmented Agents [52.33697136670754]
textbfHyperToolは、実行可能なMPPスタイルのツールインターフェースで、ツール実行のモデル可視単位を変更する。モデルはHyperToolをコードブロックで呼び出し、既存のツールを元のスキーマを通じて呼び出し、返却された値を操作し、中間結果をローカルに渡すことができる。 MCP-Universeでは、HyperToolは平均精度をQwen3-32Bで15.69%から35.29%、Qwen3-8Bで9.93%から33.33%に改善し、GPT-OSSとKimi-k2.5を平均で上回っている。
論文参考訳（メタデータ） (2026-06-11T17:56:36Z)
TAPO: Tool-Aware Policy Optimization via Credit Transfer for Multimodal Search Agents [54.08846865906602]
ツール強化マルチモーダルサーチエージェントにおいて,クレジットミス割り当てをGRPOの系統的障害モードとして特徴付ける。本稿では,情報取得ツールのパラメータ決定性を利用したツール・アウェア・ポリシー・オプティマイズ(TAPO)を提案する。
論文参考訳（メタデータ） (2026-06-04T07:15:43Z)
ToolGate: Token-Efficient Pre-Call Control for Tool-Augmented Vision-Language Agents [9.793491545168575]
ToolGateは、軌道テキストと単純な構造的特徴から実行/スキップの決定を予測する。 2つのQwen3-VLバックボーンで、ToolGateはトークンコストを制限なしのReActベースラインの64-69%に削減する。
論文参考訳（メタデータ） (2026-06-02T02:44:27Z)
Agent Explorative Policy Optimization for Multimodal Agentic Reasoning [97.64835302176056]
エージェント推論は2つの行動と構造的非対称性(思考と道具の使用)をインターリーブする。 GRPOのような標準的なRLレシピでは、ギャップはトレーニング中に2つの診断症状として現れる。 AXPO (Agent eXplorative Policy Optimization) を提案する。
論文参考訳（メタデータ） (2026-05-27T17:36:39Z)
ParaVT: Taming the Tool Prior Paradox for Parallel Tool Use in Agentic Video Reinforcement Learning [91.51460129144654]
我々はParaVTを紹介した。ParaVTは、Parallel Video Tool呼び出しのための、最初のマルチエージェントのエンドツーエンドRLトレーニングフレームワークである。 ParaVTはQwen3-VLベースラインを平均で+7.9%改善し、PARA-GRPOはトレーニングタイムのフォーマット準拠を0.13から0.64に引き上げた。
論文参考訳（メタデータ） (2026-05-19T18:01:26Z)
When Simulation Lies: A Sim-to-Real Benchmark and Domain-Randomized RL Recipe for Tool-Use Agents [32.54888729689753]
ツール使用による部分的に観測可能なマルコフ決定過程(POMDP)における実測ギャップとしての失敗について検討する。本稿では,ドメインランダム化強化学習(RL)レシピであるToolRL-DRを提案する。 3Bバックボーンでは、ToolRL-DR-Fullは約4分の3のクリーンな精度を維持し、オープンソースの14B関数呼び出しベースラインに匹敵する集計精度に達する。
論文参考訳（メタデータ） (2026-05-12T10:40:28Z)
Beyond Pairs: Your Language Model is Secretly Optimizing a Preference Graph [17.030746750590758]
ロールアウトランキングによって誘導される有向非巡回選好グラフを演算するDPOの原理的一般化を提案する。 GraphDPOはエッジとして支配関係を符号化し、グラフ構造化されたPlackett--Luce-インスパイアされた目的を最適化する。推論とプログラムタスクの実験は優れた性能を示し、グラフ構造化された嗜好モデリングは、ペアワイドおよびリストワイドのアライメント目的に対するスケーラブルで堅牢な代替手段であることを示している。
論文参考訳（メタデータ） (2026-05-08T17:26:14Z)
UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents [22.52508596251479]
構築とデータセット生成から評価に至るまで,パイプライン全体を標準化するツール学習用統合フレームワークであるUniToolCallを提案する。我々は、7つの公開ベンチマークを、関数呼び出し、ターン、会話のレベルできめ細かい評価を施した、クエリ-Action--Observation-Answer (QAOA) 表現に変換する。 Anchoror-Heavy Hybrid-20では、1ターンのStrict Precisionを93.0%達成し、GPT、Gemini、Claudeといった商用モデルを上回っている。
論文参考訳（メタデータ） (2026-04-13T14:43:47Z)
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。 Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文参考訳（メタデータ） (2025-10-07T05:32:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。