論文の概要: Bittensor Agent Arenas as a Trajectory Primitive: Distilling a Shopping Agent from ShoppingBench Subnet Traces
- arxiv url: http://arxiv.org/abs/2606.10064v1
- Date: Mon, 08 Jun 2026 18:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.134215
- Title: Bittensor Agent Arenas as a Trajectory Primitive: Distilling a Shopping Agent from ShoppingBench Subnet Traces
- Title(参考訳): トラジェクトリプリミティブとしてのビタクター・エージェント・アリーナ:ショッピングベンチ・サブネットの微量成分を添加したショッピング・エージェント
- Authors: Shardul Bansal, Seth Schilbe, Jarrod Barnes,
- Abstract要約: 小型のエージェント・トレーニングは、アルゴリズムが消費する軌道基板よりもボトルネックが少なくなる。
インセンティブに整合したエージェントアリーナを設計してそのような軌道を製造できることを論じる。
Wen Subnet 15 (SN15, Bittensor deployment of the ShoppingBench agentic-Commerce benchmark。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small-model agentic post-training is bottlenecked less by the algorithm than by the trajectory substrate it consumes. Leading recipes (RLVR, group-relative RL, rejection-sampled re-SFT) all need multi-turn traces carrying per-trajectory supervision, and the two existing sources fall short: frontier-synthesised data inherits the synthesizer's biases and collapses the long tail, while unfiltered production logs are unjudged and contaminated by shortcut behaviour. We argue that an incentive-aligned agent arena can be engineered to manufacture such trajectories, and demonstrate this on ORO Subnet 15 (SN15), a Bittensor deployment of the ShoppingBench agentic-commerce benchmark. SN15's race mechanism, LLM reasoning judge, and rotating leak-cluster-guarded problem suite yield a corpus with three properties: incentive-aligned diversity, per-trajectory judging, and anti-memorised held-out evaluation. We introduce a structural-quality filter that converts the raw firehose into a trainable corpus by keeping agentic trajectories (the model itself emits the tool calls) and rejecting sub-task trajectories (the model only classifies or narrates over a deterministic search loop), then post-train Qwen3-4B with a recipe matched to the published ShoppingBench SFT-then-GRPO pipeline. On a leak-cluster-guarded held-out partition scored production-strict, the model lifts from the published Qwen3-4B base of 18.0% ASR to 42.7%, within single-problem noise of the synthetic-data SFT-only baseline (43.6%), while training on a fraction of a single day of subnet output. The supervised stack leaves a large pass@8 to pass@1 gap (53.3% vs 34.8%); a per-step teacher-grounded Dr. GRPO reward converts that headroom into process improvement, and we identify the sub-task firehose as the primary lever for closing the gap to the 48.7% SFT+GRPO bar. We release the filter, the corpus splits, and the arena mechanics.
- Abstract(参考訳): 小型のエージェント・トレーニングは、アルゴリズムが消費する軌道基板よりもボトルネックが少なくなる。
先行レシピ (RLVR, group-relative RL, rejection-sampled re-SFT) はすべて軌道ごとの監督を行うマルチターントレースを必要としており、既存の2つのソースは不足している。
我々は,このようなトラジェクトリを製造するために,インセンティブに整合したエージェントアリーナを設計し,ShoppingBenchエージェントコマースベンチマークのビットテンソル展開であるORO Subnet 15 (SN15)上でこれを実証する。
SN15のレース機構、LSM推論ジャッジおよび回転リーククラスタガードされた問題スイートは、インセンティブに整合した多様性、軌道毎の判断、および反記憶されたホールトアウト評価の3つの特性を持つコーパスを生成する。
そこで,本研究では,提案したSFT-then-GRPOパイプラインにマッチしたレシピを用いたQwen3-4B後,エージェントトラジェクトリ(モデル自体がツールコールを出力する)とサブタスクトラジェクトリ(モデルが決定論的検索ループ上でのみ分類またはナレーションを行う)を拒否することで,生の消火ホースをトレーニング可能なコーパスに変換する構造品質フィルタを提案する。
Qwen3-4Bベースが18.0% ASRから42.7%に上昇し、合成データSFT専用ベースライン(43.6%)の単一プロブレムノイズの中で、サブネット出力の1日分をトレーニングした。
教師付きスタックは、パス@8からパス@1のギャップ(53.3%対34.8%)を残し、ステップ単位のGRPO報酬は、そのヘッドルームをプロセス改善に変換し、そのギャップを48.7% SFT+GRPOバーに閉じるための主要なレバーとしてサブタスクファイヤーホースを識別する。
フィルタ、コーパス分割、およびアリーナ力学を解放する。
関連論文リスト
- Closed-Form Spectral Regularization for Multi-Task Model Merging [96.82449201305234]
モデルマージは、個別に調整された複数の専門家をトレーニングデータなしで単一のマルチタスクモデルに結合する。
State-of-the-art merging method formulate merging as a layer-wise interference problem。
本稿では,逐次降下の勾配-流路に一致するソフト指数フィルタを組み合わせた閉形式手法SWUDIを提案する。
論文 参考訳(メタデータ) (2026-06-05T14:00:47Z) - Orchard: An Open-Source Agentic Modeling Framework [124.68499958175111]
スケーラブルなエージェントモデリングのためのオープンソースのフレームワークOrchardを紹介します。
Orchard Envは、サンドボックスライフサイクル管理のための再利用可能なプリミティブを提供する軽量環境サービスである。
Orchard Envの上に、3つのエージェントモデリングレシピを構築します。
論文 参考訳(メタデータ) (2026-05-14T16:35:12Z) - AgentCollabBench: Diagnosing When Good Agents Make Bad Collaborators [0.0]
AgentCollabBenchは、ソフトウェアエンジニアリング、DevOps、データエンジニアリングにまたがる900の人為的なタスクの診断ベンチマークです。
各タスクは、4つの行動リスクのうちの1つを分離する。
GPT 4.1 mini, Gemini 2.5 Flash Lite, Qwen-3.5-35B-A3B, Llama 3.1 8B の4つの近代LCMの評価を行った。
通信トポロジは、マルチホップ情報サバイバルにおけるばらつきの7-40%を説明する主要なリスクファクターとして現れる。
論文 参考訳(メタデータ) (2026-05-09T03:35:09Z) - The Surprising Universality of LLM Outputs: A Real-Time Verification Primitive [0.0]
CPUのみのスコアリングプリミティブはトークン当たり2.6マイクロ秒で動作する。
トークンのランク周波数分布は同じ2パラメータのMandelbrotランキング分布に収束する。
利用可能な場合にモデルログの確率で構成し、クローズドAPIで使用可能なランクオンリーモードに分解するシングルパススコアリングプリミティブを導出する。
論文 参考訳(メタデータ) (2026-04-28T13:35:31Z) - Beyond the Attention Stability Boundary: Agentic Self-Synthesizing Reasoning Protocols [6.357772907811544]
SSRP(Self- Synthesizing Reasoning Protocols)は、アーキテクチャ計画と手続き実行の分離を実装するメタ認知フレームワークである。
提案する実験層は,浅電流に基づく検索パイロット,高エントロピーSOP,セマンティックハイジャック3ホップ多要素合成タスクの3種類である。
以上の結果から,GPT 5.4の非定常バニラ基準線が0.1%に崩壊し,SSRPは715X耐力限界を達成した。
論文 参考訳(メタデータ) (2026-04-27T14:13:30Z) - Structured Distillation of Web Agent Capabilities Enables Generalization [33.41723014134473]
本稿では,人的アノテーションの役割に類似してWebエージェントの合成軌道生成を構築するフレームワークであるAgent-as-Annotatorsを紹介する。
Gemini 3 Proを教師として使用し、6つのWeb環境に3000のトラジェクトリを生成します。
結果、WebArenaでは41.5%が達成され、Claude 3.5 Sonnet (36.0%) や GPT-4o (31.5%) といったクローズドソースモデルを上回る結果となった。
論文 参考訳(メタデータ) (2026-04-09T04:04:15Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - CLEANER: Self-Purified Trajectories Boost Agentic Reinforcement Learning [4.765206163164323]
CLEANERは本質的な自己訂正機能を利用して、データ収集中にエラーに汚染されたコンテキストを除去する。
類似性を考慮した適応ロールバック機構は、クリーンで清浄な軌道を自律的に構築する。
その結果, 平均精度は6%, 3%, 5%であった。
論文 参考訳(メタデータ) (2026-01-21T16:14:30Z) - On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral [59.14787085809595]
この障害を引き起こす中核的なメカニズムとしてLazy Likelihood Displacement(LLD)を同定する。
LDDは早期に出現し、自己強化性LDDデススパイラル(LDD Death Spiral)を引き起こす。
本稿では,GRPO のための軽量な確率保存正則化 LLDS を提案する。
論文 参考訳(メタデータ) (2025-12-03T19:41:15Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。