論文の概要: Hidden Consensus:Preference-Validity Compression in Human Feedback
- arxiv url: http://arxiv.org/abs/2606.10569v1
- Date: Tue, 09 Jun 2026 08:32:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.393183
- Title: Hidden Consensus:Preference-Validity Compression in Human Feedback
- Title(参考訳): 隠れコンセンサス:ヒトフィードバックにおける規範-妥当性圧縮
- Authors: Dorcas Chia Ern Chua, Karen Myn Hui Lee, Jia Yue Tan, Zhen Xue Gue, Norzalena Abdul Hamid, Azima Binti Azmi, Keat Mei Yeong, Aizat Izyani binti Mujab, Hafsah Noor Azam, Chee Guo Khoo, Han Ying Lim, Chee Seng Chan,
- Abstract要約: 我々は,RLHFスタイルのフィードバックアグリゲーションを,プロンプト,応答,アクセプタビリティ判断をリンクする選好イベントを通じて分析する。
このコーパスの多数集合は、複数のアライメントよりもargmaxアクセプティビリティを測定している。
- 参考スコア(独自算出の注目度): 5.277861091249917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard RLHF pipelines often reduce heterogeneous human judgments into a single scalar reward target. We argue that this reduction can mis-measure alignment in structurally plural societies, where disagreement may reflect culturally, historically, linguistically, regionally, or normatively grounded interpretations rather than annotation noise. We call this failure Preference-Validity Compression, the collapse of multiple plural-valid response options into a single optimization target. Using Malaysia as a diagnostic setting, we analyze RLHF-style feedback aggregation through preference events linking prompts, responses, and acceptability judgments across interpretive frames. Across 321 preference events from 20 participants and 107 trio-annotated prompts, 79% of prompts contain more than one majority-supported response that single-winner aggregation would discard, and apparent dominance gaps between top responses diminish when all majority-supported options are considered. Participants frequently select multiple acceptable responses, and discarded responses demonstrably reflect coherent local, practical, or cultural frames. These findings show that majority aggregation in this corpus measures argmax acceptability rather than plural alignment. We treat this as a measurement-validity issue and argue that future alignment methods should satisfy Validity-Preserving Consistency, remaining stable across plural-valid interpretive frames rather than collapsing them into a single reward target.
- Abstract(参考訳): 標準的なRLHFパイプラインは、しばしば不均一な人間の判断を単一のスカラー報酬ターゲットに還元する。
この減少は, 文化的, 歴史的, 言語的, 地域的に, あるいは規範的に根ざした解釈を, アノテーションノイズではなく, 文化的, 歴史的, 言語的, あるいは規範的に反映しうる, 構造的に複数の社会において, 誤った調整を行う可能性があると論じる。
この障害をPreference-Validity Compressionと呼び、複数変数の応答オプションを1つの最適化ターゲットに分解する。
マレーシアを診断環境として用い,アクセプション,応答,アクセプタビリティ判断を相互にリンクする選好イベントを通じてRLHFスタイルのフィードバックアグリゲーションを解析した。
20人の参加者と107人のトリオアノテートプロンプトからの321件の選好イベントのうち、79%のプロンプトは多数派支持の反応を1つ以上含んでいる。
参加者は、しばしば複数の許容可能な応答を選択し、排除された応答は、明らかに、一貫性のある地域、実践的、文化的な枠組みを反映する。
これらの結果から,複数アライメントよりもargmaxアクセプタビリティを測定した。
我々は、これを測定妥当性問題として扱い、将来的なアライメント手法は、単一の報酬対象に分解するのではなく、複数の値の解釈フレーム間で安定して維持する、妥当性保存一貫性を満たすべきであると論じる。
関連論文リスト
- Escaping the Mode Lottery: Multi-Response Training Improves Language Model Generalization [14.039980020878815]
現代の言語モデルファインチューニングペアは、多くのプロンプトが複数の有効な完了を認めているにもかかわらず、それぞれ1つの応答でプロンプトを発行する。
これにより、マルチモーダルな条件分布をワンサンプルビューに効果的に還元し、トレーニングは可塑性モードのサブセットを強調する。
マルチレスポンス・トレーニング(MRT)について検討し、各プロンプト毎に複数の応答を保ちながら、いつ、なぜそれが役立つのかを原則的に説明する。
論文 参考訳(メタデータ) (2026-05-30T05:30:39Z) - From Sycophantic Consensus to Pluralistic Repair: Why AI Alignment Must Surface Disagreement [8.459329029609602]
我々はアグリゲーションのみがデプロイされた多重性アライメントの不完全なプリミティブであると主張する。
我々は,原則的修正と降伏を区別する指標であるPRS(Pluralistic repair Score)を定式化した。
論文 参考訳(メタデータ) (2026-05-14T14:47:06Z) - Pushing the Boundaries of Multiple Choice Evaluation to One Hundred Options [4.902225285395898]
本稿では,候補セットを100まで拡張する大規模オプション評価プロトコルを提案する。
この枠組みを韓国の正書法誤り検出タスクに適用する。
その結果、低いオプション設定での強いパフォーマンスは、モデルの能力を誇張できることが示された。
論文 参考訳(メタデータ) (2026-04-16T05:22:12Z) - A Single Revision Step Improves Token-Efficient LLM Reasoning [3.344806691289323]
大規模言語モデルのためのトレーニングフリーで推論のみのフレームワークであるPacket-Conditioned Revision (PACER)を紹介した。
PACERは、推論トレースを使用して、構造化された調整ステップを通じて結論を修正できる。
競争力のある数学のベンチマークでは、PACERは256サンプルの多数決の正確さと一致または超える。
論文 参考訳(メタデータ) (2026-02-02T21:28:42Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Pairwise Calibrated Rewards for Pluralistic Alignment [32.82521299417802]
現在のアライメントパイプラインは、望ましい振る舞いという単一の普遍的な概念を前提としている。
複数の報酬関数にまたがる分布を通して、多様な人間の嗜好を反映することを提案する。
我々は,小さな外乱のないアンサンブルであっても,様々な好み分布を正確に表現できることを証明した。
論文 参考訳(メタデータ) (2025-05-17T18:38:24Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。