論文の概要: PolyAlign: Conditional Human-Distribution Alignment
- arxiv url: http://arxiv.org/abs/2606.13227v1
- Date: Thu, 11 Jun 2026 11:41:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.762479
- Title: PolyAlign: Conditional Human-Distribution Alignment
- Title(参考訳): PolyAlign: 条件付き人間分布アライメント
- Authors: L. D. M. S. Sai Teja, Ufaq Khan, Sathira Silva, Xiao Wu, Muhammad Haris Khan,
- Abstract要約: ポストトレーニング法は通常、言語モデルを単一のグローバルアシスタント動作に整列する。
これにより、言語、タスク、対話設定間での人間の反応の自然な変化を抑制することができる。
バイリンガル相互作用データをバケット固有の人間参照分布に整理する分散対応アライメントフレームワークであるPolyAlignを紹介する。
- 参考スコア(独自算出の注目度): 23.756372503161813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training methods such as supervised fine-tuning (SFT) and preference optimization typically align language models toward a single global assistant behavior. While effective for improving average helpfulness, this can suppress the natural variation of human responses across languages, tasks, and dialogue settings. We study this problem as conditional human-distribution alignment: models should match the human response distribution appropriate to the current interaction context, rather than a universal response style. We introduce PolyAlign, a distribution-aware alignment framework that organizes bilingual interaction data into bucket-specific human reference distributions defined by language, interaction track, response family, and length. PolyAlign combines Bucket-Aware SFT, which balances optimization across heterogeneous buckets, with Human-Distribution Preference Optimization (HDPO), which regularizes preference learning using critic-estimated distance to bucket-specific human support. Across a bilingual evaluation suite covering English and Chinese single- and multi-turn settings, PolyAlign improves conditional naturalness and distributional faithfulness while preserving competitive task utility. The results suggest that post-training should move beyond global alignment objectives toward interaction-aware alignment with human response distributions.
- Abstract(参考訳): 教師付き微調整(SFT)や選好最適化といったポストトレーニング手法は、言語モデルを単一のグローバルアシスタント動作に合わせるのが一般的である。
平均的有用性を改善するのに効果的であるが、言語、タスク、対話設定間での人間の反応の自然な変動を抑制することができる。
我々は,この問題を条件付き人間分布アライメントとして考察する:モデルは,普遍的な応答スタイルではなく,現在の相互作用状況に適した人間の応答分布と一致すべきである。
両言語間相互作用データを,言語,インタラクショントラック,レスポンスファミリー,長さで定義された,バケット固有の人間参照分布に整理する分散対応アライメントフレームワークであるPolyAlignを紹介する。
PolyAlignはBucket-Aware SFTとHuman-Distribution Preference Optimization (HDPO)を組み合わせることで、評価された距離からバケット固有の人的サポートまで、好みの学習を規則化する。
英語と中国語のシングルターンとマルチターンの設定をカバーしたバイリンガル評価スイートを通じて、PolyAlignは、競争力のあるタスクユーティリティを維持しながら、条件の自然性と分布の忠実性を改善する。
その結果, ポストトレーニングは, 人間の反応分布との相互作用を考慮したアライメントに向けて, グローバルアライメントの目標を超えて進めるべきであることが示唆された。
関連論文リスト
- Learning to Route Languages for Multilingual Policy Optimization [50.044784120224335]
大規模言語モデルは異種多言語コーパスで訓練される。
本稿では,言語を選択可能な変数として扱うオンラインポリシー最適化フレームワークLRPOを提案する。
論文 参考訳(メタデータ) (2026-05-25T02:28:41Z) - VEPO: Variable Entropy Policy Optimization for Low-Resource Language Foundation Models [17.595722907548062]
大規模言語モデルは低リソース言語上での最適以下の性能を示す。
本稿では,政策アライメントプロセスに決定論的構造制約を組み込んだ可変エントロピーポリシー最適化(VEPO)を提案する。
VePOはトークン化効率と翻訳品質の両方を大幅に改善し、表現不足の言語のパフォーマンスギャップを埋める。
論文 参考訳(メタデータ) (2026-03-19T17:10:29Z) - CAPO: Confidence Aware Preference Optimization Learning for Multilingual Preferences [4.460583138505673]
優先順位最適化は、大きな言語モデルと人間の好みを合わせるのに使われ、通常はランク付けされた応答ペアを微調整する。
本稿では,DPO の優先ペアの固定処理を動的損失スケーリング機構に置き換える CAPO (Confidence-Aware Preference Optimization) を提案する。
CAPOは、多言語テキストでよく見られるノイズや低マージンの比較に頑健さを増す。
論文 参考訳(メタデータ) (2025-11-10T23:28:12Z) - GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。
実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-10-19T13:07:52Z) - Unintended Impacts of LLM Alignment on Global Representation [62.6579934112071]
開発者は、RLHF(Reinforcement Learning From Human Feedback)やDPO(Direct Preference Optimization)など、様々な手順で、大規模言語モデル(LLM)をユーザの好みに合わせることができる。
我々は、アライメントが、グローバルな表現の3つの軸、すなわち、英語方言、多言語主義、世界各国の意見にどのように影響するかを探求する。
これらの意図しない影響に繋がる設計決定と、より公平な選好チューニングの推奨を議論することで、私たちは結論付けました。
論文 参考訳(メタデータ) (2024-02-22T23:31:22Z) - MaxMin-RLHF: Alignment with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。
予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。
従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文 参考訳(メタデータ) (2024-02-14T03:56:27Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Aligning Language Models with Offline Learning from Human Feedback [5.539080592071948]
環境と対話することなく言語モデルを調整するために,人間のフィードバックフレームワークからオフラインで学習する手法を提案する。
具体的には、フィルタリングアライメント(FA)、報酬重み付けレグレッション(RWR)、条件付きアライメント(CA)について検討し、言語モデルを人間の好みに合わせる。
論文 参考訳(メタデータ) (2023-08-23T10:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。