論文の概要: SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research
- arxiv url: http://arxiv.org/abs/2606.09730v1
- Date: Mon, 08 Jun 2026 16:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.573389
- Title: SearchSwarm: Towards Delegation Intelligence in Agentic LLMs for Long-Horizon Deep Research
- Title(参考訳): SearchSwarm:ロングホライゾンディープリサーチのためのエージェントLDMにおけるデリゲーションインテリジェンスを目指して
- Authors: Pu Ning, Quan Chen, Kun Tao, Xinyu Tang, Tianshu Wang, Qianggang Cao, Xinyu Kong, Zujie Wen, Zhiqiang Zhang, Jun Zhou,
- Abstract要約: 大規模言語モデルは、複雑で長期の現実世界のタスクを扱うことがますます期待されている。
本稿では, 深層調査を対象とする予備調査を, 代表的な長期エージェントタスクとして提示する。
我々は,高品質なタスク分解とデリゲートに向けてモデルをガイドするハーネスを設計し,サブエージェントに適切な結果を返すよう制約する。
我々のモデルである SearchSwarm-30B-A3B は BrowseComp で68.1 、BrowseComp-ZH で73.3 を達成している。
- 参考スコア(独自算出の注目度): 17.956691114919987
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly expected to handle complex, long-horizon real-world tasks whose context demands can grow without bound, yet model context windows remain inherently finite. Recent work explores a paradigm where a main agent decomposes tasks and dispatches subtasks to subagents, which execute and return only summarized results, conserving the main agent's context budget. However, performing this well requires delegation intelligence: the ability to decompose complex tasks, determine when and what to delegate, and integrate returned results into the ongoing workflow. Training data for this capability is scarce in naturally occurring text, and to our knowledge, how to synthesize such data and train models to acquire this capability remains largely unexplored in the open-source community. To bridge this gap, we present a preliminary exploration targeting deep research, a representative long-horizon agent task. Specifically, we design a harness that guides the model toward high-quality task decomposition and delegation, while constraining subagents to return results properly to support the main agent's workflow. The harness-guided trajectories naturally encode correct delegation decisions, which we use as supervised fine-tuning data to internalize delegation intelligence into model weights. Our resulting model, SearchSwarm-30B-A3B, achieves 68.1 on BrowseComp and 73.3 on BrowseComp-ZH, the best results among all models of comparable scale. We will release our harness, model weights, and training data to facilitate future research.
- Abstract(参考訳): 大規模言語モデルは、コンテキスト要求がバウンドなしで成長できる複雑な、長期の現実世界タスクを扱うことがますます期待されているが、モデルコンテキストウィンドウは本質的に有限である。
最近の研究は、メインエージェントがタスクを分解し、サブタスクをサブエージェントにディスパッチするパラダイムを探求している。
しかし、これをうまく実行するにはデリゲートインテリジェンスが必要です。複雑なタスクを分解し、いつ、何をデリゲートするかを決定し、返された結果を継続的なワークフローに統合する機能です。
この能力のトレーニングデータは、自然発生のテキストでは不十分であり、私たちの知識では、そのようなデータをどうやって合成し、この能力を得るためにモデルを訓練するかは、オープンソースコミュニティでは明らかにされていない。
このギャップを埋めるために、我々は深層研究をターゲットとした予備調査、代表的長距離エージェントタスクを提示する。
具体的には、モデルが高品質なタスク分解とデリゲートに向けてガイドされるハーネスを設計し、サブエージェントがメインエージェントのワークフローをサポートするために結果を返すように制約する。
ハーネス誘導軌道は自然に正しいデリゲート決定を符号化しており、我々はデリゲートインテリジェンスをモデル重みに内部化するために教師付き微調整データとして使っている。
我々のモデルである SearchSwarm-30B-A3B は BrowseComp で68.1 、BrowseComp-ZH で73.3 を達成している。
将来の研究を促進するために、ハーネス、モデルウェイト、トレーニングデータをリリースします。
関連論文リスト
- QUEST: Training Frontier Deep Research Agents with Fully Synthetic Tasks [38.454776684977496]
QUESTは、様々な長距離検索タスクを扱うために設計されたオープンモデルのファミリーである。
本研究では,中等教育,教師付き微調整,強化学習を組み合わせた効果的なトレーニングレシピを提案する。
QUESTには、効果的なロングホライズン推論と知識合成を可能にするコンテキスト管理機構が組み込まれている。
論文 参考訳(メタデータ) (2026-05-22T20:59:20Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - AirQA: A Comprehensive QA Dataset for AI Research with Instance-Level Evaluation [31.02336903452371]
AirQAは人工知能(AI)分野における人手による包括的な紙QAデータセットである
3つのLDMベースのエージェントにより、ExTrActorは人間の介入なしにサンプル生成および軌道収集を行うことができる。
ExTrActorは、小さなモデルのマルチターンツール使用能力を一貫して改善し、より大きなモデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-09-21T07:24:17Z) - WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning [73.91893534088798]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回る。
論文 参考訳(メタデータ) (2025-09-16T17:57:03Z) - WebSailor: Navigating Super-human Reasoning for Web Agent [72.5231321118689]
WebSailorは、この重要な機能を組み込むように設計された、完全なポストトレーニング方法論である。
我々のアプローチは、構造化サンプリングと情報難読化によって、新しい、不確実なタスクを生成することである。
WebSailorは複雑な情報検索タスクにおいて、すべてのオープンソースエージェントを著しく上回っている。
論文 参考訳(メタデータ) (2025-07-03T12:59:07Z) - Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities [117.49715661395294]
データ構造化は、複雑で非組織的なデータをよく構造化された形式に変換することで、有望な役割を果たす。
この調査では、グラフがAIエージェントにどのように権限を与えるかを、初めて体系的にレビューする。
論文 参考訳(メタデータ) (2025-06-22T12:59:12Z) - Task Vectors in In-Context Learning: Emergence, Formation, and Benefit [17.72043522825441]
合成データセットをスクラッチから学習したモデルを用いて, 制御された環境下でのタスクベクトルの生成について検討した。
その結果,特定の条件下ではタスクベクトルが自然に現れることが確認できたが,タスクは比較的弱く,あるいは非局所的にモデル内にコード化されている可能性がある。
モデル内の所定位置に符号化された強いタスクベクトルを促進するために,損失を促すタスクベクトルに基づく補助的なトレーニング機構を提案する。
論文 参考訳(メタデータ) (2025-01-16T01:54:23Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。