論文の概要: AI Alignment From Social Choice Perspectives
- arxiv url: http://arxiv.org/abs/2606.21550v1
- Date: Fri, 19 Jun 2026 15:47:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 12:45:10.508287
- Title: AI Alignment From Social Choice Perspectives
- Title(参考訳): 社会的選択の観点からのAIアライメント
- Authors: Daniel Halpern, Evi Micha, Ariel D. Procaccia, Benjamin Schiffer, Itai Shapira, Shirley Zhang,
- Abstract要約: 社会的選択理論がフィードバックアグリゲーション層における障害モードの同定にどのように役立つかを示す。
社会的選択の観点が、明示的で原則的な方法で不一致を扱うための、より広いデザイン空間の特定にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 37.88586337953354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Alignment from human feedback uses human judgments about model outputs to steer the behavior of language models after pretraining. When those judgments reflect conflicting views of desirable behavior, the learned objective becomes an aggregate determination of what the model should prefer. We survey recent work that has studied this aggregation problem through the lens of social choice theory. We illustrate how the social choice perspective helps identify failure modes in the feedback aggregation layer and reveals a broader design space for handling disagreement in explicit and principled ways.
- Abstract(参考訳): 人間のフィードバックからのアライメントは、事前訓練後の言語モデルの振る舞いを判断するために、モデル出力に関する人間の判断を使用する。
これらの判断が望ましい行動についての矛盾する見解を反映すると、学習対象はモデルが好むものを総合的に決定する。
我々は,社会選択論のレンズを通して,この凝集問題を研究した最近の研究を調査する。
社会的選択の観点がフィードバックアグリゲーション層における障害モードの識別にどのように役立つかを説明し、明示的で原則的な方法で不一致を扱うための広い設計空間を明らかにする。
関連論文リスト
- Modeling Human Perspectives with Socio-Demographic Representations [0.6138671548064355]
本稿では,社会デコグラフィー表現を学習しながら,アノテータの視点を共同でモデル化するソシオコントラスト学習を提案する。
本手法は,アノテータの視点を予測するために,社会デマトグラフィーの特徴とテキスト表現の融合に有効なアプローチを提供する。
論文 参考訳(メタデータ) (2026-04-20T10:37:26Z) - EMBRACE: Shaping Inclusive Opinion Representation by Aligning Implicit Conversations with Social Norms [0.14323566945483493]
本研究の目的は、アライメント評価フレームワークを導入することで、NLPや計算モデルで意見がどのように表現されるかを評価することである。
我々のアプローチは、反応のスタンスを基礎となる意見の代理としてモデル化し、多様な社会的視点を考慮し、反映した表現を可能にする。
論文 参考訳(メタデータ) (2025-07-27T13:21:07Z) - Preference Learning for AI Alignment: a Causal Perspective [55.2480439325792]
私たちはこの問題を因果パラダイムに枠組み化し、永続的な課題を特定するための因果関係の豊富なツールボックスを提供します。
因果推論の文献を継承し、信頼性の高い一般化に必要な重要な仮定を特定する。
そこで本研究では, 因果関係に基づくアプローチがモデルロバスト性をいかに改善するかを, ナイーブ報酬モデルの障害モードを例示する。
論文 参考訳(メタデータ) (2025-06-06T10:45:42Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Inverse Decision Modeling: Learning Interpretable Representations of
Behavior [72.80902932543474]
我々は,逆決定モデルに関する表現的,統一的な視点を開拓する。
これを逆問題(記述モデルとして)の形式化に用います。
この構造が(有界な)有理性の学習(解釈可能な)表現を可能にする方法について説明する。
論文 参考訳(メタデータ) (2023-10-28T05:05:01Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Towards Explaining Subjective Ground of Individuals on Social Media [28.491401997248527]
本研究は、個人の主観的根拠を学習し、ソーシャルメディアに投稿された他人の状況を判断する神経モデルを提案する。
簡単な注意モジュールと過去の活動を考慮に入れた上で,我々のモデルは,社会的状況を判断する際の個人の主観的嗜好について,人間可読な説明を提供することを実証的に示す。
論文 参考訳(メタデータ) (2022-11-18T00:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。