論文の概要: A Markov Chain Approach to Preference Alignment
- arxiv url: http://arxiv.org/abs/2606.22652v1
- Date: Sun, 21 Jun 2026 19:56:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:10:55.784833
- Title: A Markov Chain Approach to Preference Alignment
- Title(参考訳): マルコフ連鎖の選好アライメントへのアプローチ
- Authors: Takuya Koriyama, Tengyuan Liang,
- Abstract要約: MCHFは、モデル出力の遷移メカニズムを定義するために、ペアワイズな選好を直接使用する。
MCHFは静止分布に幾何的に収束することを示す。
また、NLHFのミラーディフレッシュアルゴリズムは、類似構造適応収束保証を満たすことを示す。
- 参考スコア(独自算出の注目度): 5.822529963339041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Markov Chain from Human Feedback (MCHF), an elementary approach for aligning generative models from pairwise human preferences. Unlike Reinforcement Learning from Human Feedback (RLHF), which reduces comparisons to a scalar reward, and Nash Learning from Human Feedback (NLHF), which preserves pairwise utilities through a KL-regularized minimax optimization, MCHF uses pairwise preferences directly to define a transition mechanism over model outputs. Given a pairwise utility $U(x,y)$, which quantifies human preference for $y$ over $x$, and a reference probability distribution $μ_{\mathsf{ref}}$, we define a Markov kernel $\mathsf{P}(x, dy)\propto \exp(U(x,y))μ_{\mathsf{ref}}(dy)$, and take the Markov chain starting from $μ_{\mathsf{ref}}$ as an iterative alignment procedure. We show that MCHF converges geometrically fast to the stationary distribution, with a convergence rate governed by the seminorm $\|U\|_\oplus=\inf_{g,f\in L^\infty(μ_{\mathsf{ref}})}\|U-g\oplus f\|_\infty$, which quantifies the non-transitive structure of the pairwise utility. We further show that a mirror-descent algorithm for NLHF satisfies an analogous structure-adaptive convergence guarantee. Finally, through a perturbation analysis, we prove that when $\|U\|_\oplus$ is small, MCHF and NLHF agree up to first order around an RLHF solution, which yields a unified view of reward-based, game-theoretic, and Markovian approaches to alignment. In particular, for two natural algorithms that converge to the MCHF/NLHF equilibria, we show that the first step of MCHF and NLHF recovers the RLHF solution based on the column-sum reward $\hat{f}(y)=\int μ_{\mathsf{ref}}(dx) U(x, y)$, and starting from the second iteration, both algorithms incorporate the same linear functional of the residual $U-(-\hat f)\oplus \hat f$, which captures the non-transitive structure of the pairwise utility $U$.
- Abstract(参考訳): 人間フィードバック(Human Feedback, MCHF)のマルコフ・チェイン(Markov Chain)を提案する。
RLHF(Reinforcement Learning from Human Feedback)は、スカラー報酬との比較を減らし、NLHF(Nash Learning from Human Feedback)は、KL正規化ミニマックス最適化を通じてペアワイズユーティリティを保存するが、MCHFはペアワイズ好みを直接使用してモデル出力の遷移メカニズムを定義する。
a pairwise utility $U(x,y)$, which Quantates human preference for $y$ over $x$, and a reference probability distribution $μ_{\mathsf{ref}}$, we define a Markov kernel $\mathsf{P}(x, dy)\propto \exp(U(x,y))μ_{\mathsf{ref}}(dy)$, and take the Markov chain from a $μ_{\mathsf{ref}}$。
MCHF は、半ノルム $\|U\|_\oplus=\inf_{g,f\in L^\infty(μ_{\mathsf{ref}})}\|U-g\oplus f\|_\infty$ で支配される収束率で、静止分布に幾何的に早く収束することを示す。
さらに、NLHFのミラーディフレッシュアルゴリズムは、類似構造適応収束保証を満たすことを示す。
最後に、摂動解析により、$\|U\|_\oplus$ が小さいとき、MCHF と NLHF は RLHF 解の周りの一階に一致し、報酬ベース、ゲーム理論、マルコフ的アプローチの統一的な見方をもたらす。
特に、MCHF/NLHF平衡に収束する2つの自然アルゴリズムに対して、MCHF と NLHF の最初のステップは、カラムサムの報酬 $\hat{f}(y)=\int μ_{\mathsf{ref}}(dx) U(x, y)$ に基づいて RLHF の解を復元し、2回目の反復から、2つのアルゴリズムは、残余の $U-(-\hat f)\oplus \hat f$ の線型汎函数を組み入れ、ペアワイズユーティリティ $U$ の非推移構造を捉える。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Offline and Online KL-Regularized RLHF under Differential Privacy [15.993352181567872]
人的フィードバックから強化学習のオフラインおよびオンライン設定について検討する。
オフライン環境では、悲観主義の原理に基づくアルゴリズムを設計する。
オンライン環境では、我々はDPを用いたKL正規化RLHFの問題を理論的に研究した最初の人物である。
論文 参考訳(メタデータ) (2025-10-15T13:04:19Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Variance-Reduced Fast Krasnoselkii-Mann Methods for Finite-Sum Root-Finding Problems [8.0153031008486]
有限和共役方程式 $Gx = 0$ を解くために, 分散還元を伴う高速クラスクラスKrasnoselkii-Mann 法を提案する。
我々のアルゴリズムは単一ループであり、より広範なルートフィンディングアルゴリズムのために特別に設計された、偏りのない分散還元推定器の新たなファミリーを利用する。
数値実験は我々のアルゴリズムを検証し、最先端の手法と比較して有望な性能を示す。
論文 参考訳(メタデータ) (2024-06-04T15:23:29Z) - Optimal and instance-dependent guarantees for Markovian linear stochastic approximation [47.912511426974376]
標準スキームの最後の繰り返しの2乗誤差に対して、$t_mathrmmix tfracdn$の非漸近境界を示す。
マルコフ雑音による政策評価について,これらの結果のまとめを導出する。
論文 参考訳(メタデータ) (2021-12-23T18:47:50Z) - Inductive Mutual Information Estimation: A Convex Maximum-Entropy Copula
Approach [0.5330240017302619]
我々は2つの順序ベクトルの相互情報をx$とy$で推定する新しい推定器を提案する。
我々は、制約が実現可能である限り、この問題は一意な解を認め、指数関数族であり、凸最適化問題を解くことによって学習できることを証明する。
提案手法は,偽試料のコプラのエントロピーを最大化することにより,ganのモード崩壊の軽減に有用であることを示す。
論文 参考訳(メタデータ) (2021-02-25T21:21:40Z) - Linear Time Sinkhorn Divergences using Positive Features [51.50788603386766]
エントロピー正則化で最適な輸送を解くには、ベクトルに繰り返し適用される$ntimes n$ kernel matrixを計算する必要がある。
代わりに、$c(x,y)=-logdotpvarphi(x)varphi(y)$ ここで$varphi$は、地上空間から正のorthant $RRr_+$への写像であり、$rll n$である。
論文 参考訳(メタデータ) (2020-06-12T10:21:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。