論文の概要: CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents
- arxiv url: http://arxiv.org/abs/2606.22883v1
- Date: Mon, 22 Jun 2026 05:50:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:51:48.806038
- Title: CLI-Universe: Towards Verifiable Task Synthesis Engine for Terminal Agents
- Title(参考訳): CLI-Universe:端末エージェントのための検証可能なタスク合成エンジンを目指して
- Authors: Zhanbo Hua, Yifan Yao, Weihao Xie, Yongchi Zhao, Minghao Liu, Ruizhi Qiu, Zhewei Huang, Zun Wang, Yiyan Ji, Yunhai Ye, Letian Zhu, Xinping Lei, Han Li, Zhiyuan Ma, Zili Wang, Zhaoxiang Zhang, Jiaheng Liu,
- Abstract要約: 端末エージェントタスクを構成する合成エンジンCLI-Universeを紹介する。
CLI-Universe-6Kと呼ばれる6000のトラジェクトリのデータセットをインスタンス化する。
注目すべきは、CLI-Universe-6K上の微調整Qwen3-32Bはターミナルベンチ2.0で33.4%に達することである。
- 参考スコア(独自算出の注目度): 40.27594136040026
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While recent LLM-based terminal agents have demonstrated promising capabilities, the scarcity of high-quality, executable training data remains a critical bottleneck. Existing synthesis pipelines typically scale by retrofitting surface-level artifacts into tasks, frequently yielding ambiguous instructions, shallow execution paths, and brittle tests that provide weak learning signals. To overcome this, we introduce CLI-Universe, a principled synthesis engine that constructs terminal-agent tasks. CLI-Universe generates candidate tasks by sampling combinations across a multi-dimensional capability taxonomy (domain, skill type, capability, and engineering pillar), then grounds each candidate through evidence-guided deep research over real-world technical materials. To ensure rigorous supervision, validated blueprints are instantiated into Dockerized environments and subjected to a multi-stage executable verification pipeline featuring rubric-gated test construction, hint-conditional filtering, and strict fail-to-pass checking. Across the full pipeline, from candidate generation to verification, approximately two-thirds of candidates are discarded, retaining only those that are genuine, verifiable, and non-trivially challenging. To validate our framework, we instantiate a highly distilled dataset of 6,000 trajectories called CLI-Universe-6K. Remarkably, fine-tuning Qwen3-32B on CLI-Universe-6K achieves 33.4% on Terminal-Bench 2.0. This sets a new state-of-the-art for models trained on open-source data at or below 32B parameters, and outperforms several models an order of magnitude larger, demonstrating the profound data efficiency of structured, high-fidelity synthesis.
- Abstract(参考訳): 最近のLCMベースの端末エージェントは有望な能力を示しているが、高品質で実行可能なトレーニングデータの不足は依然として重大なボトルネックである。
既存の合成パイプラインは通常、表面レベルのアーティファクトをタスクに再適合させ、しばしばあいまいな命令、浅い実行パス、弱い学習信号を提供する脆いテストを生成することでスケールする。
これを解決するために,端末エージェントタスクを構成する基本合成エンジンであるCLI-Universeを紹介する。
CLI-Universeは、多次元能力分類(ドメイン、スキルタイプ、能力、工学の柱)にまたがる組み合わせをサンプリングして候補タスクを生成し、実世界の技術材料に関するエビデンスに導かれた深い研究を通じて各候補を基礎づける。
厳格な監視を確保するため、検証済みの青写真はDocker化された環境にインスタンス化され、ルーブリックゲートのテスト構成、ヒント条件フィルタリング、厳格なフェール・ツー・パスチェックを備えた、多段階の実行可能な検証パイプラインが適用される。
候補生成から検証まで、完全なパイプライン全体にわたって、候補者の約3分の2が破棄され、真の、検証可能で、非自明に困難なものだけが保持される。
この枠組みを検証するため、CLI-Universe-6Kと呼ばれる6000の軌跡の高度に蒸留されたデータセットをインスタンス化する。
注目すべきは、CLI-Universe-6K上の微調整Qwen3-32Bはターミナルベンチ2.0で33.4%に達することである。
これにより、32B以下のパラメータでオープンソースのデータに基づいてトレーニングされたモデルに対する新たな最先端のモデルが設定され、構造化された高忠実な合成の深遠なデータ効率を示すために、いくつかのモデルよりも桁違いに大きくパフォーマンスする。
関連論文リスト
- EngiAI: A Multi-Agent Framework and Benchmark Suite for LLM-Driven Engineering Design [0.4499833362998488]
3つの評価次元を持つベンチマークスイートを導入する。
本稿では,LangGraph上に構築されたマルチエージェントシステム(MAS)の実装であるEngiAIを紹介する。
論文 参考訳(メタデータ) (2026-05-19T12:12:09Z) - EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RL [54.09410318521061]
本稿では,エージェント強化学習(Agentic RL)トレーニングのための完全に自動化されたフレームワークであるEnvFactoryを紹介する。
EnvFactoryは、認証リソースから自律的に、ステートフルで実行可能なツール環境を探索する。
トポロジーを意識したサンプリングとキャリブレーションによる自然なマルチターン軌道を合成する。
トレーニング効率とダウンストリーム性能が向上し、BFCLv3ではQwen3シリーズモデルを最大15%改善し、MPP-Atlasでは+8.6%、VitaBenchでは+6%向上した。
論文 参考訳(メタデータ) (2026-05-18T17:37:40Z) - Towards Multi-Agent Autonomous Reasoning in Hydrodynamics [0.06999740786886537]
本稿では,多エージェントをレイヤ実行グラフ(LEG)を介して協調させる,流体力学のためのマルチエージェントシステム(MAS)のプロトタイプを提案する。
プランナーエージェントは、ドメイン知識を厳密な制御ロジックとしてハードコーディングすることなく、自然言語ルーティングからクエリ固有の実行トポロジを構築する。
レポーターエージェントが最終応答を合成し、ランタイムが監査性をサポートするためのツール呼び出し毎に証明をログする。
論文 参考訳(メタデータ) (2026-05-01T21:17:55Z) - Understanding by Reconstruction: Reversing the Software Development Process for LLM Pretraining [66.89012795621349]
大規模言語モデル(LLM)は、複雑なソフトウェア工学に必要な、深く、長期にわたる推論に苦しむことが多い。
本稿では,再構築による理解という,新しいパラダイムを提案する。
マルチエージェントシミュレーションを用いて潜在エージェント軌道を合成するフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-11T09:23:20Z) - LOGIGEN: Logic-Driven Generation of Verifiable Agentic Tasks [4.6880826836662814]
検証可能なトレーニングデータを合成するロジック駆動フレームワークである textbfLOGIGEN を紹介する。
2$-Benchでは、LOGIGEN-32B(RL)がtextbf79.5%の成功率を獲得し、ベースモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-28T08:35:30Z) - TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents [70.68963723787424]
TermiGenは検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインである。
TermiGen-Qwen2.5-Coder-32B は TerminalBench 上で 31.3% のパスレートを達成した。
論文 参考訳(メタデータ) (2026-02-06T23:56:50Z) - FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling [39.45732462111156]
本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。
FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T17:15:26Z) - Loong: Synthesize Long Chain-of-Thoughts at Scale through Verifiers [103.4410890572479]
スケーラブルな合成データ生成と検証のためのオープンソースのフレームワークであるLoong Projectを紹介します。
LoongBenchは、12のドメインにまたがる8,729の人為的なサンプルを含む、キュレートされたシードデータセットである。
LoongEnvはモジュラー合成データ生成環境であり、新しい質問応答コードのトリプルを生成する複数のプロンプト戦略をサポートする。
論文 参考訳(メタデータ) (2025-09-03T06:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。