論文の概要: Two Wrongs, No Right: Auditing Social-Desirability Bias in LLM Annotators for Computational Social Science
- arxiv url: http://arxiv.org/abs/2606.12426v1
- Date: Tue, 12 May 2026 08:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.88802
- Title: Two Wrongs, No Right: Auditing Social-Desirability Bias in LLM Annotators for Computational Social Science
- Title(参考訳): LLMアノテータにおけるソーシャル・デシラビリティ・バイアスの検証 : 計算社会科学のための2つの誤り
- Authors: Varun Kotte,
- Abstract要約: 6つのTweetEvalタスクに対して、オープンソースの7B命令チューニングモデル(Zephyr、Mistral-Instruct、Qwen2.5-Instruct)を監査する。
3モデルとも中絶の姿勢に中立バイアスを示し、反対の頻度を24~40ポイント過小評価し、中立ラベルを膨らませる。
興味深いことに、Zephyrのヘイトスピーチの有病率推定は、クラス条件誤差が両方の方向で大きいのに対して、ゴールドレートと正確に一致している。
- 参考スコア(独自算出の注目度): 0.11280931253550518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM annotators are increasingly used in computational social science (CSS), but it is unclear whether their alignment-shaped errors preserve the empirical conclusions a researcher would report. We audit three open-source 7B instruction-tuned models (Zephyr, Mistral-Instruct, Qwen2.5-Instruct) across six TweetEval tasks under four prompt conditions (72 cells) and find that social-desirability failures do not run in a single direction. Zephyr exhibits leniency bias, systematically under-applying harmful labels (offensive language: false benign rate 0.729, false alarm rate 0.031). Mistral and Qwen exhibit overcorrection, over-applying the same labels (Mistral hate-speech FAR = 0.604). All three models exhibit neutrality bias on abortion stance, underestimating opposition prevalence by 24 to 40 percentage points and inflating the neutral label. None of the four prompting interventions we test (neutral, safety framing, depersonalized, chain-of-thought) corrects these failures across models; safety framing can worsen stance distortion. Strikingly, Zephyr's hate-speech prevalence estimate matches the gold rate exactly while its class-conditional errors are large in both directions, an accidental cancellation that misleads aggregate validation. We translate these patterns into a three-part taxonomy with diagnostic FBR/FAR signatures and a lightweight gold-sample validation protocol. The headline for trustworthy CSS: a model that looks calibrated on aggregate metrics can still flip the substantive empirical conclusion a researcher would report.
- Abstract(参考訳): LLMアノテータは、計算社会科学(CSS)でますます使われているが、それらのアライメント型の誤りが研究者が報告する経験的結論を保っているかどうかは不明である。
オープンソースの7B命令調整モデル(Zephyr, Mistral-Instruct, Qwen2.5-Instruct)を6つのTweetEvalタスク(72セル)で監査し、社会的望ましくない障害が1方向に実行されないことを確認する。
ゼファーは寛大なバイアスを示し、体系的には有害なラベル(攻撃言語:偽良性率0.729、偽覚醒率0.031)を適用できない。
MistralとQwenは同じラベル(Mistral hate-speech FAR = 0.604)を過剰に適用している。
3モデルとも中絶の姿勢に中立バイアスを示し、反対の頻度を24~40ポイント過小評価し、中立ラベルを膨らませる。
テストする4つの介入(中性、安全フレーミング、非個人化、思考の連鎖)のどれも、モデル全体でこれらの失敗を修正しません。
興味深いことに、Zephyrのヘイトスピーチの有病率推定は、クラス条件誤差が両方の方向で大きいときに、ゴールドレートと正確に一致している。
我々はこれらのパターンを、診断用FBR/FARシグネチャと軽量なゴールドサンプル検証プロトコルを備えた3部分類に翻訳する。
信頼に値するCSSの見出し: 集約されたメトリクスで調整されたように見えるモデルは、研究者が報告する実質的な経験的な結論を覆すことができる。
関連論文リスト
- Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Knowing but Not Correcting: Routine Task Requests Suppress Factual Correction in LLMs [26.062372963777452]
LLMは、独立して提示された時に確実に偽のクレームを訂正するが、同じクレームがタスク指向のリクエストに埋め込まれている場合、そのクレームは正しいというよりも、従うことが多い。
我々は、この障害モードの誤り訂正を抑え、300の偽の前提のベンチマークを構築し、8つのモデルで体系的に評価する。
抑制率は19%から90%で、4つのモデルが80%を超え、修正抑制が一般的で深刻な現象として確立された。
論文 参考訳(メタデータ) (2026-05-07T10:04:39Z) - Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution [52.691495954442985]
CoVerRLは1つのモデルがジェネレータと検証ロールを交換するフレームワークで、各機能が他方をブートストラップする。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論のベンチマークで4.7-5.9% でラベルなしのベースラインを上回っている。
自己検証の精度は55%から85%以上改善され、両方の能力が真に共存することを確認した。
論文 参考訳(メタデータ) (2026-03-18T14:38:55Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Handling Imbalanced Pseudolabels for Vision-Language Models with Concept Alignment and Confusion-Aware Calibrated Margin [56.37346003683629]
擬似ラベルを用いた下流タスクへの視覚言語モデル(VLM)の適用が注目されている。
主な障害は、VLMによって生成された擬似ラベルが不均衡になり、性能が低下する傾向があることである。
本稿では,概念アライメントと混乱を考慮したマージン機構を取り入れた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-04T10:24:34Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。