論文の概要: SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating
- arxiv url: http://arxiv.org/abs/2606.07074v1
- Date: Fri, 05 Jun 2026 09:10:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.661179
- Title: SlimSearcher: Training Efficiency-Aware Web Agents via Adaptive Reward Gating
- Title(参考訳): SlimSearcher:Adaptive Reward Gatingによる効率性を考慮したWebエージェントのトレーニング
- Authors: Zequn Xie, Junjie Wang, Dan Yang, Jie Feng, Yue Shen, Jian Wang, Jinjie Gu,
- Abstract要約: 深層研究員は複雑な情報探索タスクにおいて顕著な能力を示してきたが、このパワーは計算コストが急上昇している。
SlimSearcherは,SFT(Supervised Fine-Tuning)と強化学習(Reinforcement Learning, RL)にまたがる精度と計算コストのフロンティアを推し進めるフレームワークである。
GAIA、BrowseComp、XBenchDeepSearchといったロングホライゾンベンチマークの実験では、SlimSearcherは平均的なツールコールラウンドを17%から58%削減し、精度を維持または改善している。
- 参考スコア(独自算出の注目度): 26.487281765184083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep research agents have demonstrated remarkable capabilities in complex information-seeking tasks, yet this power comes at a steep computational cost. Driven by accuracy-focused training paradigms, current models adopt brute-force strategies characterized by blind tool dependency and performative reasoning-generating long, redundant trajectories that are far from necessary for resolving these tasks, leading to wasteful tool calls and excessive token consumption. To overcome this efficiency trap, we propose SlimSearcher, a principled framework that pushes the Pareto frontier between accuracy and computational cost across both Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). In the SFT stage, SlimSearcher employs Pareto-efficient filtration to distill trajectories that are both successful and economical, guiding the model toward inherently efficiency-aware search behaviors. During RL, we introduce Adaptive Reward Gating, a dynamic reward-shaping mechanism that evaluates relative tool and token efficiency within a sampled cohort. By cascading these adaptive efficiency metrics with a strict correctness gate, our approach effectively avoids the brevity bias associated with absolute penalties and mitigates reward hacking. Extensive experiments on long-horizon benchmarks, including GAIA, BrowseComp, and XBenchDeepSearch, demonstrate that SlimSearcher reduces average tool-call rounds by 17%-58% while maintaining or improving accuracy.
- Abstract(参考訳): 深層研究員は複雑な情報探索タスクにおいて顕著な能力を示してきたが、このパワーは計算コストが急上昇している。
正確性を重視したトレーニングパラダイムによって駆動される現在のモデルは、ブラインドツール依存と、これらのタスクを解決するために必要な長くて冗長なトラジェクトリを生成するパフォーマンス推論を特徴とするブルートフォース戦略を採用しており、ムダなツールコールと過剰なトークン消費につながります。
この効率の罠を克服するため、我々はSlimSearcherを提案する。これはParetoフロンティアを、Supervised Fine-Tuning (SFT) とReinforcement Learning (RL)の両方で精度と計算コストの間に押し上げる、原則的なフレームワークである。
SFTの段階では、SlimSearcherはパレート効率のフィルターを用いて、成功と経済的の両方の軌跡を蒸留し、本質的な効率性に配慮した探索行動に向けてモデルを導く。
RL中、サンプルコホート内の相対工具とトークン効率を評価する動的報酬形成機構であるAdaptive Reward Gatingを導入する。
これらの適応効率指標を厳密な正当性ゲートでカスケードすることにより、絶対的な罰則に付随する簡潔さバイアスを効果的に回避し、報酬ハッキングを緩和する。
GAIA、BrowseComp、XBenchDeepSearchといったロングホライゾンベンチマークに関する大規模な実験は、SlimSearcherが平均的なツールコールラウンドを17%から58%削減し、精度を維持または改善していることを示している。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - LightSearcher: Efficient DeepSearch via Experiential Memory [23.338677838845]
本稿では,DeepSearchパラダイムの精度と効率を両立させる効率的な強化学習フレームワークを提案する。
4つのマルチホップQAベンチマークの実験は、LightSearcherがSOTAベースラインのReSearchに匹敵する精度を維持していることを示している。
論文 参考訳(メタデータ) (2025-12-07T04:29:52Z) - WebLeaper: Empowering Efficiency and Efficacy in WebAgent via Enabling Info-Rich Seeking [60.35109192765302]
情報検索は、自律的な推論と意思決定を可能にする中核的な能力である。
我々は、高カバレッジなISタスクを構築し、効率的なソリューショントラジェクトリを生成するためのフレームワークであるWebLeaperを提案する。
本手法は,強いベースラインに対する有効性と効率性の向上を継続的に達成する。
論文 参考訳(メタデータ) (2025-10-28T17:51:42Z) - HINT: Helping Ineffective Rollouts Navigate Towards Effectiveness [49.72591739116668]
強化学習(RL)は、大規模言語モデル(LLM)の長いチェーン・オブ・シント(CoT)推論能力を高めるための重要な要因となっている。
しかし、GRPOのような一般的な手法は、タスクの難しさがモデルの能力を超えると失敗し、スパーシリティと非効率なトレーニングに報いる。
我々は、適応的なヒントフレームワークであるHINT: Helping In Effective Rollouts Navigate Towards Effectiveを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:42:03Z) - RL-PINNs: Reinforcement Learning-Driven Adaptive Sampling for Efficient Training of PINNs [0.0]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)を解くための強力なフレームワークとして登場した。
彼らのパフォーマンスは、トレーニングポイントの選択に使われる戦略に大きく依存しています。
RL-PINN(RL-PINN)は,1ラウンドのサンプリングだけで効率的なトレーニングを可能にする強化学習駆動型適応サンプリングフレームワークである。
論文 参考訳(メタデータ) (2025-04-17T13:50:55Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。