論文の概要: S1-DeepResearch: Beyond Search, Toward Real-World Long-Horizon Research Agents
- arxiv url: http://arxiv.org/abs/2606.15367v1
- Date: Sat, 13 Jun 2026 16:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.462684
- Title: S1-DeepResearch: Beyond Search, Toward Real-World Long-Horizon Research Agents
- Title(参考訳): S1-DeepResearch:検索を超えて、現実世界の長期研究エージェントを目指す
- Authors: Yao Dong, Xinglin Xiao, Liwei Dong, Xinlong Jin, Zhengbo Li, Heng Zhang, Duyun Wang, Nan Xu,
- Abstract要約: 深層研究エージェントのための統一軌道構築パラダイムを提案する。
提案するフレームワークは,グラフグラウンドタスクの定式化,エージェントトラジェクトリのロールアウト,多次元トラジェクトリの検証からなる。
S1-DeepResearch-32Bは、同等のスケールのオープンソースモデル間で最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 22.248115680330496
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep research agents aim to solve complex knowledge-intensive tasks through long-horizon planning, evidence gathering, reasoning, and report generation. While recent progress in search agents has demonstrated strong capabilities in information retrieval and answer verification, most existing training datasets remain search-centric, focusing primarily on closed-ended question answering and information localization. As a result, they mainly train information-seeking behavior while providing limited coverage of key deep research capabilities, including evidence integration, knowledge synthesis, planning, file understanding, and structured report generation. In this work, we propose a unified trajectory construction paradigm for deep research agents that combines closed-ended QA and open-ended exploration. The proposed framework consists of graph-grounded task formulation, agentic trajectory rollout, and multi-dimensional trajectory verification, enabling scalable synthesis of high-quality agentic trajectories spanning long-chain complex reasoning, deep research instruction following, report writing, file understanding and generation, and skills usage. Compared with existing search-oriented datasets, our synthesized trajectories place greater emphasis on knowledge synthesis, complex reasoning, and planning. S1-DeepResearch-32B achieves state-of-the-art performance among open-source models of comparable scale across 20 benchmarks spanning five capability dimensions, including complex reasoning, instruction following, report generation, file understanding, and skills usage. On several challenging deep research benchmarks, it approaches the performance of leading proprietary frontier models. These results highlight the importance of jointly modeling information acquisition, knowledge synthesis, and planning-oriented agent behaviors for building effective deep research agents.
- Abstract(参考訳): ディープリサーチエージェントは、長期計画、証拠収集、推論、レポート生成を通じて、複雑な知識集約的なタスクを解決することを目的としている。
検索エージェントの最近の進歩は、情報検索と回答検証において強力な能力を示しているが、既存のトレーニングデータセットの多くは、主にクローズドエンドな質問応答と情報ローカライゼーションに焦点を当てて、検索中心のままである。
その結果、主に情報探索行動の訓練を行い、エビデンス統合、知識合成、計画、ファイル理解、構造化されたレポート生成など、重要な研究能力を限定的にカバーした。
本研究では,密閉QAとオープンエンド探査を組み合わせたディープリサーチエージェントのための統一軌道構築パラダイムを提案する。
提案フレームワークは,グラフグラウンドのタスク定式化,エージェントトラジェクトリのロールアウト,多次元トラジェクトリの検証から成り,長鎖複素推論を対象とする高品質なエージェントトラジェクトリのスケーラブルな合成,深い研究指導,レポート作成,ファイルの理解と生成,スキル利用を可能にする。
既存の探索指向のデータセットと比較すると、合成された軌道は知識合成、複雑な推論、計画に重点を置いている。
S1-DeepResearch-32Bは、複雑な推論、命令フォロー、レポート生成、ファイル理解、スキル使用を含む5つの機能ディメンションにまたがる20のベンチマークにおいて、同等規模のオープンソースモデルの最先端のパフォーマンスを達成する。
いくつかの挑戦的なディープリサーチベンチマークでは、主要なプロプライエタリフロンティアモデルのパフォーマンスにアプローチしている。
これらの結果は、効果的な深層研究エージェントを構築するために、情報取得、知識合成、計画指向エージェントの振る舞いを共同でモデル化することの重要性を強調している。
関連論文リスト
- DuMate-DeepResearch: An Auditable Multi-Agent System with Recursive Search and Rubric-Grounded Reasoning [58.09293442211248]
Deep Research(DR)は、複雑でオープンな研究課題に取り組むための新しいエージェントパラダイムとして登場した。
本稿では,Qianfan Agent Foundry上に構築されたマルチエージェントDRフレームワークであるDuMate-DeepResearchを紹介する。
論文 参考訳(メタデータ) (2026-06-05T14:10:48Z) - QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks [38.454776684977496]
QUESTは、様々な長距離検索タスクを扱うために設計されたオープンモデルのファミリーである。
本研究では,中等教育,教師付き微調整,強化学習を組み合わせた効果的なトレーニングレシピを提案する。
QUESTには、効果的なロングホライズン推論と知識合成を可能にするコンテキスト管理機構が組み込まれている。
論文 参考訳(メタデータ) (2026-05-22T20:59:20Z) - WebResearcher: Unleashing unbounded reasoning capability in Long-Horizon Agents [72.28593628378991]
WebResearcherは、マルコフ決定プロセスとしてディープリサーチを再構築する反復的なディープリサーチパラダイムである。
WebResearcherは最先端のパフォーマンスを実現し、フロンティアのプロプライエタリシステムを超えています。
論文 参考訳(メタデータ) (2025-09-16T17:57:17Z) - Deep Research: A Survey of Autonomous Research Agents [33.96146020332329]
大規模言語モデル(LLM)の急速な進歩は、複雑なタスクを自律的に実行可能なエージェントシステムの開発を促している。
これらの制約を克服するため、深層研究のパラダイムが提案され、エージェントは、Webベースの証拠に根ざした包括的で忠実な分析レポートを生成するために、計画、検索、合成に積極的に従事する。
本稿では,計画,質問開発,Web探索,レポート生成の4段階からなるディープリサーチパイプラインの体系的概要について述べる。
論文 参考訳(メタデータ) (2025-08-18T09:26:14Z) - From Web Search towards Agentic Deep Research: Incentivizing Search with Reasoning Agents [96.65646344634524]
推論とエージェント能力を備えた大規模言語モデル(LLM)は、エージェントディープリサーチ(Agenic Deep Research)と呼ばれる新しいパラダイムを取り入れている。
静的なWeb検索から,計画,探索,学習を行う対話型エージェントベースのシステムへの進化を辿ります。
我々はエージェントディープリサーチが既存のアプローチを著しく上回るだけでなく、将来の情報探索において支配的なパラダイムになることを実証する。
論文 参考訳(メタデータ) (2025-06-23T17:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。