論文の概要: Debiasing Without Protected Attributes: Latent Concept Erasure from Textual Profiles
- arxiv url: http://arxiv.org/abs/2606.12088v1
- Date: Wed, 10 Jun 2026 13:49:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.488121
- Title: Debiasing Without Protected Attributes: Latent Concept Erasure from Textual Profiles
- Title(参考訳): 保護属性のないデバイアス: テキストプロファイルからの潜在概念消去
- Authors: Shun Shao, Zheng Zhao, Anna Korhonen, Yftah Ziser, Shay B. Cohen,
- Abstract要約: NLPにおけるほとんどの公正性の研究は、性別、人種、国籍などの保護された属性に直接アクセスすることを前提としている。
センシティブな属性に直接アクセスすることなく、成功を損なうことができるのか?
本稿では,自己記述テキストを暗黙のデバイアス信号として用いて,ポストホックの概念と属性消去を行うH-SALを提案する。
- 参考スコア(独自算出の注目度): 48.07449275130565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most fairness research in NLP assumes direct access to protected attributes such as gender, race, or nationality. In practice, however, such information is often unavailable due to privacy constraints, missing metadata, or legal restrictions, even though models may infer it from indirect textual cues. This raises a key question: can debiasing succeed without direct access to sensitive attributes? We propose H-SAL, which performs post-hoc concept and attribute erasure using self-description text as an implicit debiasing signal. To support this setting, we introduce a multi-domain Stack Exchange-based fairness benchmark for helpfulness prediction that includes both explicit and implicit signals, enabling comparison between standard debiasing with protected labels and debiasing without access to sensitive information. Across encoder and decoder-only language models, we find that implicit self-description often matches or outperforms explicit-label-based debiasing. Our results broaden representation-level fairness research and provide a new benchmark for studying debiasing under realistic data constraints.
- Abstract(参考訳): NLPにおけるほとんどの公正性の研究は、性別、人種、国籍などの保護された属性に直接アクセスすることを前提としている。
しかし、実際には、モデルが間接的なテキストの手がかりからそれを推測するとしても、プライバシーの制約、メタデータの欠如、法的制約のために、そのような情報は利用できないことが多い。
センシティブな属性に直接アクセスすることなく、成功を損なうことができるのか?
本稿では,自己記述テキストを暗黙のデバイアス信号として用いて,ポストホックの概念と属性消去を行うH-SALを提案する。
この設定をサポートするために、明示的な信号と暗黙的な信号の両方を含む有用な予測のためのマルチドメインStack Exchangeベースのフェアネスベンチマークを導入し、保護されたラベルとの標準デバイアスと機密情報にアクセスせずにデバイアスを可能にする。
エンコーダとデコーダのみの言語モデル全体で、暗黙的な自己記述はしばしば明示的なラベルに基づく偏見にマッチし、より優れる。
本研究は,表現レベルの公正性の研究を拡大し,現実的なデータ制約下での偏りの研究のための新しいベンチマークを提供する。
関連論文リスト
- Response Time Enhances Alignment with Heterogeneous Preferences [49.69696266152175]
簡易な二次信号で選好データセットを増大させることで、住民の平均選好の識別性を回復できることを示す。
私たちの結果は、将来的なデータ収集パイプラインに約束と新たな機会をもたらします。
論文 参考訳(メタデータ) (2026-05-07T22:05:23Z) - Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - SANER: Annotation-free Societal Attribute Neutralizer for Debiasing CLIP [41.62536201065971]
CLIPのような大規模視覚言語モデルは、保護属性に関する社会的バイアスを含むことが知られている。
我々は,CLIPテキストの特徴情報から属性情報を取り除き,属性ニュートラル記述のみを除去する,SANERという単純なyet- Effective debiasing手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T17:57:28Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Can Querying for Bias Leak Protected Attributes? Achieving Privacy With
Smooth Sensitivity [14.564919048514897]
既存の規制は、モデル開発者が保護された属性にアクセスすることを禁止している。
公正度測定値を求めるだけで、モデルの開発者に対する個人の保護された属性が漏洩する可能性があることを示す。
本稿では,雑音をバイアスクエリのスムーズな感度に調整することで,差分プライバシーを実現する新しい手法であるAttribute-Concealを提案する。
論文 参考訳(メタデータ) (2022-11-03T20:44:48Z) - Semi-FairVAE: Semi-supervised Fair Representation Learning with
Adversarial Variational Autoencoder [92.67156911466397]
逆変分オートエンコーダに基づく半教師付き公正表現学習手法を提案する。
我々は、バイアス認識モデルを用いて、機密属性の固有バイアス情報をキャプチャする。
また、偏見のないモデルを用いて、対立学習を用いて偏見情報を取り除き、偏見のない公正表現を学習する。
論文 参考訳(メタデータ) (2022-04-01T15:57:47Z) - Fairness via Representation Neutralization [60.90373932844308]
フェアネスのための表現中立化(Representation Neutralization for Fairness, RNF)という新たな緩和手法を提案する。
RNFは、DNNモデルのタスク固有の分類ヘッダのみをデバイアスすることで、その公平性を達成する。
複数のベンチマークデータセットに対する実験結果は、DNNモデルの識別を効果的に削減するRNFフレームワークを実証している。
論文 参考訳(メタデータ) (2021-06-23T22:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。