論文の概要: State-Grounded Multi-Agent Synthetic Data Generation for Tool-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2606.16307v1
- Date: Mon, 15 Jun 2026 07:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.138074
- Title: State-Grounded Multi-Agent Synthetic Data Generation for Tool-Augmented LLMs
- Title(参考訳): 工具強化LDMのための多元合成データ生成
- Authors: Rahul Khedar, Eshita, Sneha Teja Sree Reddy Thondapu, Mayank Malhotra, Arup Das, Jitesh Chandra, Yun-Shiuan Chuang, Chaitanya Kulkarni, Arun Menon, Linsey Pang, Avinash Karn, Mouli V, Prakhar Mehrotra,
- Abstract要約: 我々は、スコア付き、推論に富んだトレーニング会話を生成する合成データ生成プラットフォームであるStateGenを提示する。
本報告では,64,698対3生産コーパスにおける会話の評価結果について報告する。
単一の公開プラットフォームには、マルチターン生成、ステートグラウンドツールシミュレーション、階層型マルチエージェントサポート、ビルトインの審査スコアが組み込まれていない。
- 参考スコア(独自算出の注目度): 4.159564529889378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training tool-augmented LLM agents requires large corpora of multi-turn, tool-grounded conversational data that is expensive to annotate, privacy-constrained in production settings, and largely absent from public datasets. We present StateGen, a synthetic data generation platform that produces scored, reasoning-trace-rich training conversations by orchestrating a four-role LLM loop: a persona-conditioned user simulator, an agent under test, a state-grounded tool simulator, and a multi-axis LLM judge. The key architectural contribution is an authoritative state manager that maintains a structured world-state object across turns, enforcing a backend-is-truth invariant that eliminates the dominant class of tool-call hallucinations by construction. StateGen extends naturally to hierarchical multi-agent settings by declaring sub-agents as tools, all sharing a single state object. We report results on 64,698 evaluated conversations across three production corpora: tool-call hallucination scores reach 9.66/10, the system supports persona-driven variation via a 23-dimensional trait vector, and a cleanly separated train and golden evaluation set split confirms the data is not memorization bait (per-criterion gap analysis). Comparison with eight external systems shows that no single publicly available platform combines multi-turn generation, state-grounded tool simulation, hierarchical multi-agent support, and built-in judge scoring.
- Abstract(参考訳): トレーニングツール拡張 LLM エージェントには,アノテートにコストがかかり,運用環境ではプライバシが制限される上に,公開データセットにはほとんど含まれない,多面的な,多面的な会話データの大規模なコーパスが必要となる。
本研究では,4つのLLMループ(ペルソナ条件付きユーザシミュレータ,テスト中のエージェント,状態条件付きツールシミュレータ,多軸LPM判断器)を編成することにより,スコア付きレーティングトレーサリッチなトレーニング会話を生成する合成データ生成プラットフォームであるStateGenを提案する。
主要なアーキテクチャ的コントリビューションは、ターンにまたがって構造化された世界状態オブジェクトを維持する権威のある状態マネージャである。
StateGenは、サブエージェントをツールとして宣言することで、階層的なマルチエージェント設定に自然に拡張する。
ツールコール幻覚スコアは9.66/10に達し,23次元特性ベクトルによるペルソナ駆動の変動をサポートし,クリーンに分離された列車とゴールデンアセスメントセットの分割により,データが記憶ベイトではないことを確認した。
8つの外部システムと比較すると、単一の公開プラットフォームがマルチターン生成、ステートグラウンドツールシミュレーション、階層型マルチエージェントサポート、ビルトイン・ジャッジスコアを組み合わせたものはない。
関連論文リスト
- Graph-of-Agents: A Graph-based Framework for Multi-Agent LLM Collaboration [57.23877089929136]
Graph-of-Agents (GoA)はマルチエージェントLLM通信をモデリングするための新しいグラフベースのフレームワークである。
GoAは3つの選択されたエージェントしか使用せず、最近のマルチエージェントLCMベースラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-04-18T21:13:03Z) - UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents [22.52508596251479]
構築とデータセット生成から評価に至るまで,パイプライン全体を標準化するツール学習用統合フレームワークであるUniToolCallを提案する。
我々は、7つの公開ベンチマークを、関数呼び出し、ターン、会話のレベルできめ細かい評価を施した、クエリ-Action--Observation-Answer (QAOA) 表現に変換する。
Anchoror-Heavy Hybrid-20では、1ターンのStrict Precisionを93.0%達成し、GPT、Gemini、Claudeといった商用モデルを上回っている。
論文 参考訳(メタデータ) (2026-04-13T14:43:47Z) - Toward Scalable Verifiable Reward: Proxy State-Based Evaluation for Multi-turn Tool-Calling LLM Agents [8.760287445955045]
大規模言語モデル (LLM) エージェントは多ターン対話や多段階のツール呼び出しによって運用に利用されつつある。
以前のエージェントベンチマークは、ビルドとイテレーションにコストがかかる、完全に決定論的バックエンドに依存していた。
決定論的データベースを使わずに最終状態ベース評価を保持するLLM駆動型シミュレーションフレームワークであるProxy State-Based Evaluationを提案する。
論文 参考訳(メタデータ) (2026-02-18T07:49:47Z) - ToolForge: A Data Synthesis Pipeline for Multi-Hop Search without Real-World APIs [40.70833390513187]
本稿では,強力な実世界のツールコール性能を実現する自動合成フレームワークであるToolForgeを紹介する。
ToolForgeは、マルチホップ検索シナリオ用に設計された大規模ツール学習データを合成する。
実験結果から,合成データを用いてトレーニングした場合,8Bパラメータのみのモデルが複数のベンチマークでGPT-4oを上回っていることがわかった。
論文 参考訳(メタデータ) (2025-12-18T04:06:26Z) - A Multimodal Conversational Agent for Tabular Data Analysis [0.2211620227346065]
大規模言語モデル(LLM)は、音声対話を含むユーザとの対話において、ハイパフォーマンスを維持しながら、データ分析、可視化、解釈を扱うことで、情報処理を再構築することができる。
直感的データ探索のためのマルチモーダルLLM駆動型対話エージェントTalk2Dataを提案する。
このシステムでは、ユーザーは音声やテキストでデータセットをクエリし、プロット、テーブル、統計、音声による説明などの回答を受け取ることができる。
論文 参考訳(メタデータ) (2025-11-23T11:21:04Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。
OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。
我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文 参考訳(メタデータ) (2025-06-10T15:59:38Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation [51.20656279478878]
MATRIXは、様々なテキストベースのシナリオを自動的に生成するマルチエージェントシミュレータである。
制御可能でリアルなデータ合成のためのMATRIX-Genを紹介する。
AlpacaEval 2 と Arena-Hard のベンチマークでは、Llama-3-8B-Base が、MATRIX-Gen によって合成されたデータセット上で、たった 20K の命令応答ペアで、Meta の Llama-3-8B-Instruct モデルより優れています。
論文 参考訳(メタデータ) (2024-10-18T08:01:39Z) - AgentBench: Evaluating LLMs as Agents [99.12825098528212]
エージェントとしてのLarge Language Model (LLM)は近年広く認知されている。
我々は,LLM-as-Agentの推論と意思決定能力を評価するために,8つの異なる環境からなるベンチマークであるAgentBenchを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。