論文の概要: To Compare, or Not to Compare: On Methodological Practices in Evaluating Social Bias
- arxiv url: http://arxiv.org/abs/2606.24596v1
- Date: Tue, 23 Jun 2026 13:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.99354
- Title: To Compare, or Not to Compare: On Methodological Practices in Evaluating Social Bias
- Title(参考訳): 比較・比較しない:社会バイアス評価の方法論的実践について
- Authors: Federico Marcuzzi, Xuefei Ning, Roy Schwartz, Iryna Gurevych,
- Abstract要約: 異質なベンチマークを標準化する統一的なフレームワークを導入し、孤立した人口統計評価と強制選択比較設定を対比する。
比較設定は、主に不特定文脈によって引き起こされる潜在識別のアグレッシブな触媒として機能することを示す。
最後に、この比較偏見はモデルサイズと正にスケールする一般化された現象であることを示す。
- 参考スコア(独自算出の注目度): 61.40435736418359
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models are increasingly deployed in critical applications, robustly evaluating their social biases is paramount. However, the current literature suffers from widespread methodological fragmentation, which yields contradictory conclusions. This stems largely from ignoring the structural framing of benchmark-level evaluations. To resolve this, we introduce a unified and controllable framework that standardizes heterogeneous benchmarks to systematically contrast isolated demographic assessments with forced-choice comparative settings. Crucially, this allows us to disentangle the confounding effects of Chain-of-Thought reasoning, neutral fallback options, and other structural artifacts in social bias evaluations. Our evaluation across multiple model families reveals a massive, systematic paradigm gap: while isolated assessments limit prejudice activation, comparative settings act as aggressive catalysts for latent discrimination, a shift primarily driven by underspecified contexts. Alarmingly, CoT reasoning exacerbates social biases under comparative settings, and this systemic bias persists as a deterministic prejudice even when models are provided neutral fallback options or claim to answer randomly. Finally, we demonstrate that this comparative prejudice is a generalized phenomenon that scales positively with model size. Ultimately, we offer a crucial methodological guideline: while researchers must leverage comparative settings to robustly audit hidden biases, practitioners cannot safely rely on comparative deployments in ambiguous real-world tasks.
- Abstract(参考訳): 大規模言語モデルは、ますます重要なアプリケーションにデプロイされているため、彼らの社会的バイアスをしっかりと評価することが最重要である。
しかし、現在の文献は幅広い方法論的断片化に悩まされており、矛盾する結論を導いている。
これは主に、ベンチマークレベルの評価の構造的フレーミングを無視したことに由来する。
これを解決するために,異種ベンチマークを標準化する統一的かつ制御可能なフレームワークを導入する。
重要なことは、社会的バイアス評価におけるChain-of-Thought推論、中立的なフォールバックオプション、その他の構造的アーティファクトの欠点を解消できるということです。
分離された評価では偏見のアクティベーションが制限されるが、相対的な設定は潜在的差別の攻撃的触媒として作用するが、これは主に不特定文脈によって引き起こされるシフトである。
CoT推論は、比較設定の下で社会的偏見を悪化させ、モデルに中立的なフォールバックオプションが提供されたり、ランダムに答えようとする場合であっても、この体系的偏見は決定論的偏見として持続する。
最後に、この比較偏見はモデルサイズと正にスケールする一般化された現象であることを示す。
研究者たちは、隠れたバイアスをしっかりと監査するために比較設定を活用しなければならないが、実践者は、あいまいな現実世界のタスクにおける比較配置に安全に依存することはできない。
関連論文リスト
- Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - The simulation of judgment in LLMs [32.57692724251287]
大規模言語モデル(LLM)は、情報フィルタリングから説明と信頼性の判断を通じて知識ギャップの評価と対処に至るまで、評価プロセスに組み込まれている。
これにより、このような評価がどのように構築されるのか、どのような仮定に依存しているのか、その戦略が人間のものとどのように異なるのかを調べる必要が生じる。
我々は、専門家の評価に対して、6つのLCM(NewsGuardとMedia Bias/Fact Check)と、制御された実験を通して収集された人間の判断に対してベンチマークを行った。
論文 参考訳(メタデータ) (2025-02-06T18:52:10Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Covert Bias: The Severity of Social Views' Unalignment in Language Models Towards Implicit and Explicit Opinion [0.40964539027092917]
過度なバイアスシナリオのエッジケースにおけるバイアスモデルを用いて、ビューに対するバイアスの重症度を評価する。
以上の結果から,暗黙的・明示的な意見の識別において,LLM 性能の相違が明らかとなり,反対意見の明示的な意見に対する偏見の傾向が一般的であった。
非整合モデルの直接的な不注意な反応は、決定性のさらなる洗練の必要性を示唆している。
論文 参考訳(メタデータ) (2024-08-15T15:23:00Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and
Benchmarks [95.29345070102045]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。
まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。
中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文 参考訳(メタデータ) (2022-02-16T11:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。