論文の概要: ISE: An Execution-Grounded Recipe for Multi-Turn OS-Agent Trajectories
- arxiv url: http://arxiv.org/abs/2606.11520v2
- Date: Sat, 13 Jun 2026 09:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 13:45:31.103693
- Title: ISE: An Execution-Grounded Recipe for Multi-Turn OS-Agent Trajectories
- Title(参考訳): ISE:マルチTurn OS-Agent トラジェクトリの実行環境
- Authors: Siyuan Luo, Nairong Zheng, Lin Zhou, Tiankuo Yao, Shengyou Yuan, Haojia Yu, Cong Pang, Jiapeng Luo, Lewei Lu,
- Abstract要約: 有能なOSエージェントのトレーニングには、構造化されたユーザインテント、マルチターンタスクデリゲート、既存のデータセットにないグラウンド化されたツール実行-プロパティを同時にキャプチャするデータが必要である。
ISE(Intent -> Simulate -> Execute)は,これらのギャップに共同で対処する3段階合成パラダイムである。
- 参考スコア(独自算出の注目度): 18.739245125968175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training capable OS agents requires data that simultaneously captures structured user intents, multi-turn task delegation, and grounded tool execution--properties absent from existing datasets. We propose ISE (Intent -> Simulate -> Execute), a three-stage synthesis paradigm that addresses these gaps jointly. Stage 1 constructs roughly 50000 structured intents via a 4D framework (Persona x Domain x Task x Complexity); after deduplication the pool contains 43956 unique intents and attains a Vendi Score of 61.57 over the entire pool on mpnet-base-v2 embeddings (cosine kernel, q=1). Stage 2 drives multi-turn user-agent interaction through a role-locked user simulator that grounds each user turn in actual execution outcomes, producing 23132 complete trajectories averaging 8.12 user turns and 68.24 total dialogue turns. Stage 3 runs every tool call inside a live, isolated OS workspace, generating authentic failure-recovery dynamics instead of simulated responses. Fine-tuning on ISETrace improves ClawEval pass@1 from 19.3 to 37.7 using Qwen3-8B on agent tool-use tasks with a standard protocol. This result outperforms zero-shot GPT-4o and the larger Qwen3-32B base model which is four times bigger. An ablation on Stage 2 proves multi-turn simulation brings a large portion of the performance gain. We release all source code and dataset at https://github.com/Valiere01/ISE-Trace.
- Abstract(参考訳): 有能なOSエージェントのトレーニングには、構造化されたユーザインテント、マルチターンタスクデリゲート、既存のデータセットにないグラウンド化されたツール実行-プロパティを同時にキャプチャするデータが必要である。
ISE(Intent -> Simulate -> Execute)は,これらのギャップに共同で対処する3段階合成パラダイムである。
ステージ1は4Dフレームワーク(Persona x Domain x Task x Complexity)を介して約50000個の構造化されたインテントを構成し、プールは43956個のユニークなインテントを含み、mpnet-base-v2埋め込み(cosine kernel, q=1)でプール全体に61.57のベンディスコアを得る。
ステージ2はロールロックされたユーザシミュレータを通じてマルチターンのユーザエージェントインタラクションを駆動し、実際の実行結果に基づいて、平均8.12のユーザターンと68.24の対話ターンを平均する23132の完全なトラジェクトリを生成する。
ステージ3は、生きた孤立したOSワークスペース内ですべてのツールコールを実行し、シミュレートされた応答ではなく、本物の障害回復ダイナミクスを生成する。
ISETraceの微調整によりClawEvalpass@1が19.3から37.7に改善された。
その結果、ゼロショット GPT-4o と 4 倍の Qwen3-32B ベースモデルより優れている。
ステージ2でのアブレーションは、マルチターンシミュレーションがパフォーマンス向上の大部分をもたらすことを証明している。
すべてのソースコードとデータセットをhttps://github.com/Valiere01/ISE-Trace.comでリリースします。
関連論文リスト
- EEVEE: Towards Test-time Prompt Learning in the Real World for Self-Improving Agents [64.96332056338923]
EEVEEは、LLMエージェントのための最初のマルチデータセットテスト時プロンプト学習フレームワークである。
実世界のタスクストリーム下でテスト時のプロンプト学習を可能にする。
EEVEEはQwen3-4B-InstructとDeepSeek-V3.2で平均マルチベンチマークスコアを10.38点、24.32点改善している。
論文 参考訳(メタデータ) (2026-06-09T17:57:16Z) - Synthesize and Reward -- Reinforcement Learning for Multi-Step Tool Use in Live Environments [12.645050883623982]
本稿では,3つのコントリビューションを持つPROVE(Programmatic Rewards On Verified Environments)を提案する。
20のステートフルMPPサーバからなるライブラリは343のツールを公開し、セッションスコープによるステートアイソレーションによるライブ実行RLトレーニングを可能にする。
状態マシンデータ合成パイプラインは、ライブサンプリングされたサーバ状態にグラウンドされたマルチターンツールコールトラジェクトリを生成し、実際に存在するクエリ参照エンティティを生成する。
BFCLのMulti-Turn、tau2-bench、T-Evalでは、PROVEは最大+10.2、+6.8、+6.5ポイントの改善をもたらす。
論文 参考訳(メタデータ) (2026-06-02T16:52:31Z) - EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design [0.4499833362998488]
3つの評価次元を持つベンチマークスイートを導入する。
本稿では,LangGraph上に構築されたマルチエージェントシステム(MAS)の実装であるEngiAIを紹介する。
論文 参考訳(メタデータ) (2026-05-19T12:12:09Z) - APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
LLMベースの自律エージェントは、永続的な手続き記憶を欠いている。
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークであるAPEX-EMを提案する。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - One Battle After Another: Probing LLMs' Limits on Multi-Turn Instruction Following with a Benchmark Evolving Framework [51.50565654314582]
大規模言語モデルは、複数のトピックにまたがる対話を通して、ユーザの指示に従うことができる。
既存のベンチマークは、しばしば一定回数のターンに制限されるため、飽和の影響を受けにくく、ユーザのインタラクティブなエクスペリエンスを考慮できない。
マルチターン命令追従能力を評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-05T14:39:59Z) - NaviAgent: Bilevel Planning on Tool Navigation Graph for Large-Scale Orchestration [13.925896302382043]
大規模言語モデル(LLM)は、最近、外部ツールを呼び出すことによって関数呼び出しエージェントとして機能する機能を示した。
そこで我々は,タスクプランニングをツール実行からツールエコシステムのグラフベースモデリングを通じて分離するNaviAgentを提案する。
実験によると、NaviAgentはモデルとタスク間で最高のタスク成功率を達成し、TWMNを統合することで、複雑なタスクで最大17ポイントパフォーマンスが向上する。
論文 参考訳(メタデータ) (2025-06-24T10:39:07Z) - RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Randomization for Robust Bimanual Robotic Manipulation [52.2244588424002]
我々は,多様かつ現実的なデータの自動生成のためのスケーラブルなフレームワークであるRoboTwin 2.0を紹介する。
コアとなるRoboTwin-ODは、セマンティックおよび操作関連アノテーションを備えた147カテゴリにわたる771インスタンスのオブジェクトライブラリである。
sim-to-real転送を改善するために、RoboTwin 2.0は5つの軸に沿って構造化された領域ランダム化を適用する。
論文 参考訳(メタデータ) (2025-06-22T16:26:53Z) - APIGen-MT: Agentic Pipeline for Multi-Turn Data Generation via Simulated Agent-Human Interplay [86.01901238059261]
APIGen-MTは検証可能で多様なマルチターンエージェントデータを生成するフレームワークである。
xLAM-2-fc-r 級数で 1B から 70B のパラメータを持つモデル群を訓練する。
我々のモデルは、$tau$-benchとBFCLベンチマークでGPT-4oやClaude 3.5のようなフロンティアモデルより優れている。
論文 参考訳(メタデータ) (2025-04-04T17:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。