論文の概要: Unmasking LAION-5B: Age, Gender, Race, and Emotion Biases in Large-Scale Image Datasets
- arxiv url: http://arxiv.org/abs/2606.23204v1
- Date: Mon, 22 Jun 2026 11:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:22:40.443336
- Title: Unmasking LAION-5B: Age, Gender, Race, and Emotion Biases in Large-Scale Image Datasets
- Title(参考訳): LAION-5B:大規模画像データセットにおける年齢・性別・人種・感情バイアス
- Authors: Iris Dominguez-Catena, Daniel Paternain, Mikel Galar,
- Abstract要約: 本研究では,LAION-2B-enとLAION-2B-multiの人口構成と表現,ステレオタイプおよび交叉バイアスの包括的分析を行った。
FairFace、DeepFace、Emo-AffectNetといった最先端モデルを使用することで、データセットで検出された顔を分析し、年齢、性別、人種、表現された感情のバイアスを特定します。
- 参考スコア(独自算出の注目度): 6.049643123521082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale image-text datasets, such as LAION-5B, are foundational to modern AI systems, yet their vast scale and uncurated nature raise significant concerns about demographic and stereotypical biases. This study presents a comprehensive analysis of the demographic composition and representational, stereotypical, and intersectional biases in LAION-2B-en and LAION-2B-multi, the two main components of the LAION-5B dataset. Using state-of-the-art models -- FairFace, DeepFace, and Emo-AffectNet -- we analyze faces detected in the dataset to identify biases across age, gender, race, and expressed emotion. Our findings reveal substantial overrepresentation of young adults (20--39), White individuals, and males, alongside consistent underrepresentation of minority racial groups and middle-aged or older women across both dataset components. We also observe stereotypical associations between demographic attributes and emotions, such as ``Anger'' being predominantly linked to males and ``Happiness'' to females, pointing to systemic imbalances in the data. The consistency of these patterns across two demographic models and both components of LAION-5B demonstrates that these biases are deeply embedded in one of the most widely-used training datasets. Given the scale at which LAION-5B is used to train generative models, these demographic imbalances could shape the behavior and outputs of numerous downstream AI systems.
- Abstract(参考訳): LAION-5Bのような大規模な画像テキストデータセットは、現代のAIシステムの基礎となっているが、その大規模で未修正な性質は、人口統計学的およびステレオタイプ的バイアスに重大な懸念をもたらす。
本研究では,LAION-5Bデータセットの2つの主成分であるLAION-2B-enとLAION-2B-multiの人口構成,表現,ステレオタイプおよび交差バイアスの包括的分析を行った。
最先端モデル(FairFace、DeepFace、Emo-AffectNet)を使用することで、データセットで検出された顔を分析し、年齢、性別、人種、表現された感情の偏見を識別する。我々の発見は、両方のデータセットコンポーネントにわたって、少数民族のグループと中年女性を一貫性を持って表現すると共に、若い大人(20-39)、白人個人、および男性のかなりの過剰表現を明らかにしている。
また,「アンガー」が主に男性に結びついており,「幸福」が女性に結びついているなど,人口特性と感情のステレオタイプ的関連も観察し,データの体系的不均衡を指摘する。
2つの統計モデルとLAION-5Bの双方のコンポーネントにまたがるパターンの一貫性は、これらのバイアスが最も広く使用されているトレーニングデータセットの1つに深く埋め込まれていることを示している。
LAION-5Bが生成モデルのトレーニングに使用されるスケールを考えると、これらの人口動態の不均衡は多くの下流AIシステムの振る舞いと出力を形作ることができる。
関連論文リスト
- Auditing and Mitigating Bias in Gender Classification Algorithms: A Data-Centric Approach [0.0]
広く使われている5つの性別分類データセットを検査し、重要な交叉表現の不足を明らかにした。
これらのデータセットのうち2つの最もバランスのとれたUTKFaceとFairFaceで、同一のMobileNetV2分類器をトレーニングします。
我々の公正性評価は、これらのモデルでさえ有意な偏見を示し、男性の顔よりも高い速度で女性の顔を誤分類していることを示している。
論文 参考訳(メタデータ) (2025-10-17T02:09:17Z) - Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models [81.45743826739054]
大きな障壁は、LAION-400MのようなWebスケールデータセットにおける人口統計アノテーションの欠如である。
2億7600万以上のバウンディングボックスや、性別や人種/民族ラベルの認識、キャプションの自動生成など、完全なデータセットのための人中心アノテーションを作成します。
それらを用いて、黒人や中東と見なされる男性や個人と犯罪に関連する負のコンテンツとの不均等な結びつきなど、人口不均衡や有害な関連を明らかにする。
論文 参考訳(メタデータ) (2025-10-04T07:51:59Z) - Biased Heritage: How Datasets Shape Models in Facial Expression Recognition [13.77824359359967]
画像に基づく表情認識システムにおいて,データセットから訓練されたモデルへのバイアス伝搬について検討する。
本稿では,複数の階層群を有する複数クラス問題に特化して設計された新しいバイアス指標を提案する。
その結果,FERデータセットの一般的な人口収支よりも,感情特異的な人口動態パターンの防止が優先されるべきであることが示唆された。
論文 参考訳(メタデータ) (2025-03-05T12:25:22Z) - Less can be more: representational vs. stereotypical gender bias in facial expression recognition [3.9698529891342207]
機械学習モデルは、トレーニングデータからバイアスを継承し、差別的または不正確な予測につながる。
本稿では、データセットから機械学習モデルへの人口統計バイアスの伝播について検討する。
ジェンダーの人口構成に焦点をあて、表現とステレオタイプという2種類の偏見を分析した。
論文 参考訳(メタデータ) (2024-06-25T09:26:49Z) - Leveraging Prototypical Representations for Mitigating Social Bias without Demographic Information [50.29934517930506]
DAFairは、言語モデルにおける社会的バイアスに対処する新しいアプローチである。
偏見を緩和するために、原型的人口統計テキストを活用し、微調整プロセス中に正規化用語を取り入れる。
論文 参考訳(メタデータ) (2024-03-14T15:58:36Z) - Analyzing Bias in Diffusion-based Face Generation Models [75.80072686374564]
拡散モデルは、合成データ生成と画像編集アプリケーションでますます人気がある。
本研究では, 性別, 人種, 年齢などの属性に関して, 拡散型顔生成モデルにおけるバイアスの存在について検討する。
本研究は,GAN(Generative Adversarial Network)とGAN(Generative Adversarial Network)をベースとした顔生成モデルにおいて,データセットサイズが属性組成および知覚品質に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-10T18:22:31Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Gender Stereotyping Impact in Facial Expression Recognition [1.5340540198612824]
近年,機械学習に基づくモデルが表情認識(FER)における最も一般的なアプローチとなっている。
公開可能なFERデータセットでは、見かけ上の性別表現は概ねバランスが取れているが、個々のラベルでの性別表現はそうではない。
我々は、特定のラベルの性別比を変化させることで、異なる量のステレオタイプバイアスを持つ微分データセットを生成する。
我々は、最低バイアス条件下で、性別間の特定の感情の認識において、最大で29 % の差を観察する。
論文 参考訳(メタデータ) (2022-10-11T10:52:23Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。