論文の概要: Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents
- arxiv url: http://arxiv.org/abs/2606.12674v1
- Date: Wed, 10 Jun 2026 21:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.460034
- Title: Evoflux: Inference-Time Evolution of Executable Tool Workflows for Compact Agents
- Title(参考訳): Evoflux: コンパクトエージェントのための実行可能なツールワークフローの推論時間進化
- Authors: Kushal Raj Bhandari, Ling Yue, Ching-Yun Ko, Dhaval Patel, Shaowu Pan, Pin-Yu Chen, Jianxi Gao,
- Abstract要約: 私たちは、小さなプランナがツールの解決、パラメータの検証、依存性の追跡、実行で失敗する、妥当なワークフローグラフを生成すると論じています。
数百のトレースがワークフロー形式を教えることができるが、ツールカタログの変更による障害計画の修正に必要なリカバリ動作をカバーすることはめったにない。
本稿では,ツールグラフの修復作業として,コンパクトツールの使用を取り扱う推論時進化探索手法であるEvofluxを紹介する。
- 参考スコア(独自算出の注目度): 41.53691975342536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Compact language models (LMs) reduce cost, latency, and deployment risk for tool agents. Yet MCP-style tool use requires more than isolated function calling: an agent must discover tools from live catalogs, satisfy schemas, preserve dependencies across intermediate outputs, and ground final responses in executed evidence. Small planners often generate plausible workflow graphs that fail under tool resolution, parameter validation, dependency tracking, or execution. We argue that this failure mode is poorly handled by small-corpus distillation. A few hundred teacher traces can teach workflow format, but rarely cover the recovery behavior needed to repair failed plans over changing tool catalogs. We introduce Evoflux, an inference-time evolutionary search method that treats compact tool use as the repair of executable tool workflows. It evolves typed workflow graphs through structured edits, execution feedback, adaptive intensity, meta-guided redesign, and diversity pruning. On held-out MCP-Bench tasks spanning live MCP servers and 250 tools, Evoflux raises execution feasibility from roughly 3% to 17-24% across small planners. In contrast, SFT and SFT+DPO on the same search-mined data match, underperform, or collapse below zero-shot performance; ReAct reaches higher peaks, but with higher variance and token cost. These results show that execution-grounded search is more reliable under scarce teacher-trace budgets.
- Abstract(参考訳): コンパクト言語モデル(LM)は、ツールエージェントのコスト、レイテンシ、デプロイメントリスクを低減する。
エージェントはライブカタログからツールを発見し、スキーマを満足させ、中間出力にまたがって依存関係を保持し、実行されたエビデンスで最終応答を接地する必要がある。
小さなプランナは、ツールの解決、パラメータの検証、依存性の追跡、実行で失敗する、妥当なワークフローグラフを生成することが多い。
この故障モードは小口径蒸留ではうまく扱えないと我々は主張する。
数百の教師トレースがワークフロー形式を教えることができるが、ツールカタログの変更に関する失敗計画の修復に必要な復旧動作をカバーすることはめったにない。
本稿では,小型ツールを実行可能なツールワークフローの修復に利用する推論時間進化探索手法であるEvofluxを紹介する。
構造化編集、実行フィードバック、アダプティブインテンシティ、メタガイダンスの再設計、ダイバーシティプルーニングを通じて、型付きワークフローグラフを進化させる。
ライブのMCPサーバと250のツールにまたがるMCP-Benchタスクでは、Evofluxは小さなプランナに対して、実行可能性約3%から17-24%に向上する。
対照的に、SFTとSFT+DPOは、ゼロショット性能以下で同じ検索マイニングされたデータマッチング、性能低下、あるいは崩壊する; ReActは高いピークに達するが、高いばらつきとトークンコストを持つ。
これらの結果から,教師・トラス予算の不足下では,実行基盤探索がより信頼性が高いことが示唆された。
関連論文リスト
- When Tools Fail: Benchmarking Dynamic Replanning and Anomaly Recovery in LLM Agents [48.32450507410869]
既存のベンチマークでは、LLMにおけるツール統合推論を理想化された'ハッピーパス'に基づいて評価している。
我々はTIRエージェントの動的経路探索とエラー回復のためのベンチマークであるToolMazeを紹介する。
論文 参考訳(メタデータ) (2026-06-04T07:38:46Z) - GRAFT: Graph-Tokenized LLMs for Tool Planning [41.72670983284452]
大規模言語モデル(LLM)は、複数のステップで外部ツールを選択し調整することで、複雑なタスクを完了させるのにますます使われています。
これにより、ツール間の方向性の実行依存関係を満足しながら、サブタスクインテントとツールの選択を整合させる必要がある。
本稿では,依存認識ツール計画のためのグラフ学習言語モデルフレームワークであるGRAFTを提案する。
論文 参考訳(メタデータ) (2026-05-12T07:59:41Z) - DLLM Agent: See Farther, Run Faster [94.74432470237817]
拡散大言語モデル(DLLM)は、自己回帰(AR)デコーディングの代替として、魅力的な効率とモデリング特性を持つ。
我々は、DLLMとARのバックボーンを同一のエージェントワークフロー内でインスタンス化することで、制御された環境でこれを研究する。
DLLMエージェントはARエージェントよりも平均30%以上速く、場合によっては8倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2026-02-07T09:01:18Z) - ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents [31.77712252239516]
逆誘導探索法はツール使用エージェントの強化に強い可能性を示している。
ツール使用環境におけるPRMの体系的かつ信頼性の高い評価ベンチマークが欠如している。
ツール使用エージェントのPRM評価に特化して設計された大規模ベンチマークであるToolPRMBenchを紹介する。
論文 参考訳(メタデータ) (2026-01-18T07:48:36Z) - ET-Agent: Incentivizing Effective Tool-Integrated Reasoning Agent via Behavior Calibration [68.89572566071575]
ETAgentはエージェントのツール使用行動を調整するためのトレーニングフレームワークである。
過誤行動パターンを最適行動に段階的に校正するように設計されている。
論文 参考訳(メタデータ) (2026-01-11T11:05:26Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。