論文の概要: SPIRAL: Learning to Search and Aggregate
- arxiv url: http://arxiv.org/abs/2606.23595v1
- Date: Mon, 22 Jun 2026 17:02:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 17:57:13.816293
- Title: SPIRAL: Learning to Search and Aggregate
- Title(参考訳): SPIRAL: 検索と集約の学習
- Authors: Jubayer Ibn Hamid, Ifdita Hasan Orney, Michael Y. Li, Omar Shaikh, Yoonho Lee, Dorsa Sadigh, Chelsea Finn, Noah Goodman,
- Abstract要約: SPIRALは、言語モデルに3つのプリミティブ全てを統一された推論計算パイプラインの一部として使用するように訓練するフレームワークである。
SPIRALは推論計算で効果的にスケールし、GRPOを最大11$timesのスケーリング効率で上回り、3つの計算プリミティブがスケーリングされた場合、15%高いパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 63.26414719363803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language model reasoning can be substantially improved at test time via scaffolds that scale inference compute across different primitives -- sequential reasoning within a trace, independently sampled parallel traces, and aggregation of multiple reasoning traces into a final response. During post-training, however, language models are optimized only for sequential reasoning within a single trace. We introduce Sequential-Parallel-Aggregative Reinforcement Learning (SPIRAL), a framework in which a language model is trained to use all three primitives, as part of a unified inference compute pipeline. Concretely, the language model first samples a set of independent traces in parallel, each produced through sequential chain-of-thought reasoning, and then generates a final aggregation trace conditioned on those traces; all components are optimized end-to-end against the reward of the final aggregated response. To train this system, SPIRAL uses set reinforcement learning to teach models to produce a set of traces that are collectively useful for an aggregator and standard reinforcement learning to teach models to aggregate the set into improved final responses. Our experiments on reasoning tasks show that SPIRAL effectively scales with inference compute, outperforming GRPO by up to 11$\times$ scaling efficiency and 15% higher performance when all three compute primitives are scaled.
- Abstract(参考訳): 言語モデルの推論は、さまざまなプリミティブにわたる推論計算をスケールする足場(トレース内のシーケンシャル推論、独立にサンプリングされた並列トレース、最終的な応答への複数の推論トレースの集約)を通じて、テスト時に大幅に改善することができる。
しかし、訓練後、言語モデルは単一のトレース内でシーケンシャルな推論のためにのみ最適化される。
本稿では,SPIRAL(Sequential-Parallel-Aggregative Reinforcement Learning)について紹介する。
具体的には、言語モデルはまず、一連の独立したトレースを並列にサンプリングし、それぞれがシーケンシャルなチェーン・オブ・シーケンシャルな推論を通して生成し、それからそれらのトレースに条件付けられた最終的な集約トレースを生成する。
このシステムをトレーニングするために、SPIRALはセット強化学習を使用してモデルにアグリゲータや標準強化学習に有用な一連のトレースを生成することで、セットを最終的な応答に集約するようにモデルに教える。
推論タスクに関する実験により、SPIRALは推論計算で効果的にスケールし、最大11$\times$スケール効率でGRPOを上回り、3つの計算プリミティブが全てスケールされた場合、15%高いパフォーマンスを示した。
関連論文リスト
- UniT: Unified Multimodal Chain-of-Thought Test-time Scaling [85.590774707406]
統一モデルは単一のアーキテクチャ内でマルチモーダル理解と生成の両方を扱うことができるが、通常は出力を反復的に書き換えることなく単一のパスで操作する。
マルチモーダルなテストタイムスケーリングのためのフレームワークであるUniTを導入し、単一の統一モデルで複数のラウンドをまたいだ推論、検証、精査を可能にします。
論文 参考訳(メタデータ) (2026-02-12T18:59:49Z) - Mind the Gap: Bridging Thought Leap for Improved Chain-of-Thought Tuning [54.65050470296886]
本研究では,跳躍を自動的に検出し,中間的推論ステップを欠くことを目的としたCoT Thought Leap Bridge Taskを提案する。
ブリッジされたデータセットに微調整されたモデルが、元のデータセットでトレーニングされたモデルよりも一貫して優れていることを示す。
提案手法は, 蒸留データを効果的に向上させ, 強化学習の出発点として優れたものを提供する。
論文 参考訳(メタデータ) (2025-05-20T17:59:31Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Tree-Averaging Algorithms for Ensemble-Based Unsupervised Discontinuous Constituency Parsing [23.091613114955543]
予測木を平均化することにより,既存の不連続な動作の異なるアンサンブルを構築することを提案する。
次に、タスクに取り組むための効率的な正確なアルゴリズムを開発し、全てのサンプルに対して妥当な時間で実行します。
3つのデータセットの結果は、我々のメソッドがすべてのメトリクスですべてのベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2024-02-29T21:49:31Z) - COLO: A Contrastive Learning based Re-ranking Framework for One-Stage
Summarization [84.70895015194188]
コントラスト学習に基づく一段階要約フレームワークであるCOLOを提案する。
COLOはCNN/DailyMailベンチマークの1段階システムの抽出と抽象化結果を44.58と46.33ROUGE-1スコアに引き上げた。
論文 参考訳(メタデータ) (2022-09-29T06:11:21Z) - Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium
Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。
提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文 参考訳(メタデータ) (2021-09-20T14:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。