論文の概要: N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization
- arxiv url: http://arxiv.org/abs/2606.10768v1
- Date: Tue, 09 Jun 2026 12:21:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.483363
- Title: N-GRPO: Embedding-Level Neighbor Mixing for Enhanced Policy Optimization
- Title(参考訳): N-GRPO: 政策最適化のための埋め込みレベル近隣混合
- Authors: Xukun Zhu, Hang Yu, Peng Di, Linchao Zhu,
- Abstract要約: 我々は,グループ相対政策最適化フレームワークに統合された新しい探索戦略であるN-GRPOを紹介する。
トークンレベルのサンプリングやネイティブな埋め込みレベルのノイズに頼るのではなく、Semantic Neighbor Mixingを活用する。
N-GRPOは、数学推論ベンチマークの強いベースラインよりも一貫した改善を達成し、また分布外タスクの堅牢な一般化能力を示す。
- 参考スコア(独自算出の注目度): 55.14402862283128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The success of Large Language Models in mathematical reasoning relies heavily on the generation of diverse and valid solution paths during the rollout phase. However, current rollout techniques face a fundamental trade-off: token-level sampling often yields redundant trajectories that differ only in rephrasing, while embedding-level methods utilizing random noise frequently disrupt semantic consistency. To resolve this, we introduce N-GRPO, a novel exploration strategy integrated into the Group Relative Policy Optimization (GRPO) framework. Rather than relying on token-level sampling or native embedding-level noise, our approach leverages Semantic Neighbor Mixing. This mechanism dynamically constructs input representations by mixing the embeddings of an anchor token and its nearest semantic neighbors, thereby injecting diversity while strictly adhering to the local semantic manifold. Experimental evaluations on the DeepSeek-R1-Distill-Qwen models across different sizes show that N-GRPO not only achieves consistent improvements over strong baselines on math reasoning benchmarks but also exhibits robust generalization capabilities on out-of-distribution tasks.
- Abstract(参考訳): 数学的推論における大規模言語モデルの成功は、ロールアウトフェーズにおける多様かつ有効なソリューションパスの生成に大きく依存している。
しかし、現在のロールアウト技術は基本的なトレードオフに直面している。トークンレベルのサンプリングは、リフレージングでのみ異なる冗長なトラジェクトリを生成することが多いが、ランダムノイズを利用した埋め込みレベルの手法は、セマンティック一貫性を乱すことが多い。
そこで我々は,グループ相対政策最適化(GRPO)フレームワークに組み込まれた新たな探索戦略であるN-GRPOを紹介する。
トークンレベルのサンプリングやネイティブな埋め込みレベルのノイズに頼るのではなく、Semantic Neighbor Mixingを活用する。
このメカニズムは、アンカートークンとその最も近いセマンティックな隣人の埋め込みを混合することで入力表現を動的に構築し、それによって局所的セマンティック多様体に厳密に固執しながら多様性を注入する。
異なるサイズにわたるDeepSeek-R1-Distill-Qwenモデルの実験的評価により、N-GRPOは数学推論ベンチマークの強いベースラインよりも一貫した改善を達成できるだけでなく、分布外タスクの堅牢な一般化能力も示している。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space [78.36537400975298]
グループ相対政策最適化(GRPO)は、テキスト・ツー・イメージ(T2I)フローモデルにおいて、優先順位調整のための強力なフレームワークとして登場した。
条件空間を拡大することで関係探索を強化する新しい手法であるMulti-View GRPOを提案する。
MV-GRPOは最先端手法よりも優れたアライメント性能を実現する。
論文 参考訳(メタデータ) (2026-03-13T04:35:13Z) - DenseGRPO: From Sparse to Dense Reward for Flow Matching Model Alignment [49.45064510462232]
テキスト・画像生成のためのGRPOベースのアプローチは、スパース報酬問題に悩まされる。
textbfDenseGRPOは、人間の好みと深い報酬を一致させる新しいフレームワークである。
論文 参考訳(メタデータ) (2026-01-28T03:39:05Z) - Neighbor GRPO: Contrastive ODE Policy Optimization Aligns Flow Models [48.3520220561093]
グループ相対政策最適化は、画像とビデオ生成モデルと人間の嗜好の整合性を示す。
現代のフローマッチングモデルに適用することは、決定論的サンプリングパラダイムのために難しい。
SDE の必要性を完全に回避する新しいアライメントアルゴリズム Neighbor GRPO を提案する。
論文 参考訳(メタデータ) (2025-11-21T05:02:47Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - SPREAD: Sampling-based Pareto front Refinement via Efficient Adaptive Diffusion [0.8594140167290097]
SPREADは拡散確率モデル(DDPM)に基づく生成フレームワークである
決定空間からサンプリングされた点上の条件拡散過程を学習する。
適応的多重勾配降下インスパイアされた更新を高速収束に利用するサンプリングスキームにより、候補を洗練する。
論文 参考訳(メタデータ) (2025-09-25T12:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。