論文の概要: Gradient-Guided Reward Optimization for Inference-time Alignment
- arxiv url: http://arxiv.org/abs/2606.09635v1
- Date: Mon, 08 Jun 2026 15:33:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.459633
- Title: Gradient-Guided Reward Optimization for Inference-time Alignment
- Title(参考訳): 推論時間アライメントのための勾配誘導リワード最適化
- Authors: Hankun Lin, Ruqi Zhang,
- Abstract要約: グラデーションガイダンスによるデコーディングにおいて、ターゲットとなる最小限の介入を行う軽量な推論時手法を提案する。
実験により、GGROは安全性、有用性、推論ベンチマークを横断する推論時間アライメントを一貫して改善することが示された。
また、コンピュータのオーバーヘッドを最小限に抑えて、高品質なレスポンスと、ハッキングに報いるロバストさのカバレッジも向上する。
- 参考スコア(独自算出の注目度): 22.28081683932275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensuring the reliability of Large Language Models (LLMs) under distribution drift requires inference-time adaptation. While inference-time alignment methods such as Best-of-$N$ and rejection sampling are widely used, they frame the task as a sampling-intensive, reward-guided search, leading to two key limitations: their performance is bounded by the base model's generation quality, and their reliance on imperfect reward models makes them vulnerable to reward hacking. To address these challenges, we introduce Gradient-Guided Reward Optimization (GGRO), a lightweight inference-time method that performs targeted, minimal intervention during decoding via gradient guidance. Specifically, GGRO monitors token-level entropy to identify high-uncertainty regions indicative of drift or misalignment. Upon detection, it responds by injecting nudging tokens, generated using gradient signals from an off-the-shelf reward model, to steer the generation trajectory rather than merely re-ranking samples. Experiments show that GGRO consistently improves inference-time alignment across safety, helpfulness, and reasoning benchmarks. It also increases coverage of high-quality responses and robustness to reward hacking, with minimal computational overhead. Code is available at https://github.com/lhk2004/GGRO.
- Abstract(参考訳): 分散ドリフト下でのLarge Language Models (LLM) の信頼性を保証するには、推論時適応が必要である。
Best-of-N$やrejection sampleといった推論時間アライメント手法が広く使われているが、彼らはこのタスクをサンプリング集約型、報酬誘導型検索とみなし、その性能はベースモデルの世代品質に制限され、不完全な報酬モデルに依存しているため、報酬のハッキングには脆弱である、という2つの重要な制限に繋がった。
これらの課題に対処するため,グラディエントガイド・リワード最適化 (GGRO) を導入する。
具体的には、GGROはトークンレベルのエントロピーを監視し、ドリフトや誤認識を示す高不確かさ領域を識別する。
検出されると、オンザシェルフの報酬モデルから勾配信号を用いて生成されたヌーディングトークンを注入して応答し、単にサンプルを再ランク付けするのではなく、生成軌道を操縦する。
実験により、GGROは安全性、有用性、推論ベンチマークを横断する推論時間アライメントを一貫して改善することが示された。
また、コンピュータのオーバーヘッドを最小限に抑えて、高品質なレスポンスと、ハッキングに報いるロバストさのカバレッジも向上する。
コードはhttps://github.com/lhk2004/GGROで公開されている。
関連論文リスト
- GIRL-DETR: Gradient-Isolated Reinforcement Learning for Video Moment Retrieval [10.034595422596562]
ビデオモーメント検索(VMR)タスクは、自然言語クエリに沿った時間境界を正確にローカライズする必要がある。
GIRL-DETRは、RLポストトレーニングを、初めて軽量な時間的ローカライゼーションフレームワークに導入する。
論文 参考訳(メタデータ) (2026-05-30T15:40:00Z) - Beyond Verifiable Rewards: Rubric-Based GRM for Reinforced Fine-Tuning SWE Agents [9.505140329883762]
よりリッチな学習信号を提供するジェネレーティブ・リワード・モデル(GRM)を導入する。
GRMには、特定の行動パターンを奨励または阻止するための基準を示す、人間によって設計されたルーリックが備わっている。
SWEタスク上でRFT(Reinforced Fine-Tuning)に使用する場合,本手法は終端スコアのみのリジェクションサンプリングよりも優れる。
論文 参考訳(メタデータ) (2026-03-13T02:23:49Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - GARDO: Reinforcing Diffusion Models without Reward Hacking [54.841464430913476]
オンライン強化学習(RL)による微調整拡散モデルにより,テキストと画像のアライメントが向上する可能性が示された。
このミスマッチは、しばしば報酬のハッキングにつながり、プロキシスコアは増加し、実際の画像品質は低下し、生成の多様性は崩壊する。
我々は、サンプル効率、効率的な探索、報酬ハッキングの軽減という競合する要求に対処するため、Gated and Adaptive Regularization with Diversity-Aware Optimization (GARDO)を提案する。
論文 参考訳(メタデータ) (2025-12-30T10:55:45Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - Diffusion Sampling Path Tells More: An Efficient Plug-and-Play Strategy for Sample Filtering [18.543769006014383]
拡散モデルはしばしば、サンプリング軌跡に固有の変化のために、一貫性のないサンプル品質を示す。
CFG-リジェクション(CFG-Rejection)は,デノナイジングプロセスの初期段階において,低品質なサンプルをフィルタリングする効率的なプラグアンドプレイ戦略である。
画像生成におけるCFG-Rejectionの有効性を広範囲な実験により検証する。
論文 参考訳(メタデータ) (2025-05-29T11:08:24Z) - InfAlign: Inference-aware language model alignment [58.66389179049758]
言語モデルのアライメントは、現代の生成言語モデルのトレーニングにおける重要なステップである。
この列車/テストのミスマッチは、推論時間法の観点から標準のRLHFフレームワークを最適化することを示す。
本稿では,ベースモデルに対するアライメントポリシーの予測時間勝利率を最適化することを目的とした,推論対応アライメント(InfAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-27T18:45:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。