論文の概要: BAFIS: Dataset + Framework to assess occupational Bias and Human Preference in modern Text-to-image Models
- arxiv url: http://arxiv.org/abs/2606.20241v1
- Date: Thu, 18 Jun 2026 13:52:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.8908
- Title: BAFIS: Dataset + Framework to assess occupational Bias and Human Preference in modern Text-to-image Models
- Title(参考訳): BAFIS:現代のテキスト・ツー・イメージモデルにおける職業バイアスと人間の嗜好を評価するためのデータセット+フレームワーク
- Authors: Thomas Klassert, Adrian Ulges, Biying Fu,
- Abstract要約: 本研究は,テキスト・ツー・イメージ・モデルに存在する固有バイアスと言語によるバイアスについて検討する。
本稿では、性別と民族性バイアス、画像品質、即時アライメントに焦点を当てた5つの現行のテキスト・ツー・イメージモデルについて包括的な評価を行う。
本研究は,テキスト・ツー・イメージ・モデルにおいて,主観的ユーザ・レーティングと部分的相関に確立された評価指標を用いた系統的バイアスを明らかにした。
- 参考スコア(独自算出の注目度): 0.8538830579425146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative artificial intelligence has the potential to improve productivity and transform the production of creative content. However, existing research indicates that image generation models are significantly influenced by biases. This work investigates the inherent biases and language-induced biases present in text-to-image models within the context of occupation-related image generation, complementing established metrics with human preference feedback. We present a comprehensive evaluation of five current text-to-image models: Midjourney v6.1, Stable Diffusion 3 Medium, DALL-E 3, Playground v2.5, and FLUX.1-dev , focusing on gender and ethnicity bias, image quality, and prompt alignment. To facilitate this evaluation, we developed the "Battle-Arena for Fair Image Synthesis" (BAFIS), a platform designed to collect human feedback on bias in generated images. Furthermore, we created a dataset comprising 21,140 synthetic images generated using multilingual prompts, which serves as a basis for our analysis. We further place our results within a broader social context by comparing them to official statistics from the German Federal Employment Agency. Our findings reveal systematic biases in text-to-image models, with established evaluation metrics in partial correlation with subjective user ratings. Thus, our research emphasizes the need for including human preferences to develop fairer and more inclusive text-to-image models.
- Abstract(参考訳): 創造的な人工知能は、生産性を向上し、創造的なコンテンツの制作を変革する可能性がある。
しかし、既存の研究では、画像生成モデルはバイアスの影響を大きく受けていることが示されている。
本研究では、職業関連画像生成の文脈において、テキスト・ツー・イメージモデルに存在する固有のバイアスと言語によるバイアスについて検討し、確立された指標と人間の嗜好フィードバックを補完する。
そこで本研究では,現在行われている5つのテキスト・ツー・イメージモデル(Midjourney v6.1,Stable Diffusion 3 Medium,DALL-E 3, Playground v2.5,FLUX.1-dev)を総合的に評価し,性別・民族性バイアス,画像品質,即時アライメントに着目した。
この評価を容易にするために,生成された画像のバイアスに対する人間のフィードバックを収集するプラットフォームであるBattle-Arena for Fair Image Synthesis (BAFIS)を開発した。
さらに,多言語プロンプトを用いて生成した21,140個の合成画像からなるデータセットを作成し,解析の基盤となった。
我々は、その結果をドイツ連邦雇用庁の公式統計と比較することによって、より広い社会的文脈に配置する。
本研究は,テキスト・ツー・イメージ・モデルにおいて,主観的ユーザ・レーティングと部分的相関に確立された評価指標を用いた系統的バイアスを明らかにした。
そこで本研究では,より公平で包括的なテキスト・ツー・イメージ・モデルを開発するために,人間の好みを含めることの必要性を強調した。
関連論文リスト
- KITTEN: A Knowledge-Intensive Evaluation of Image Generation on Visual Entities [93.74881034001312]
KITTENはKnowledge-InTensiveイメージジェネラティオンのベンチマークである。
我々は最新のテキスト・画像モデルと検索強化モデルについて体系的な研究を行う。
分析によると、高度なテキスト・ツー・イメージモデルでさえ、エンティティの正確な視覚的詳細を生成できない。
論文 参考訳(メタデータ) (2024-10-15T17:50:37Z) - Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation [0.0]
筆者らは4,512枚の画像から200万点以上のアノテーションを収集し,スタイル選好,コヒーレンス,テキスト・ツー・イメージアライメントの4つの顕著なモデルを評価した。
提案手法は,膨大なアノテータのプールに基づいて画像生成モデルを包括的にランク付けすることを可能にする。
論文 参考訳(メタデータ) (2024-09-18T12:02:20Z) - Gender Bias Evaluation in Text-to-image Generation: A Survey [25.702257177921048]
テキスト・ツー・イメージ・ジェネレーションにおけるジェンダーバイアス評価に関する最近の研究についてレビューする。
安定拡散やDALL-E 2といった最近の人気モデルの評価に焦点をあてる。
論文 参考訳(メタデータ) (2024-08-21T06:01:23Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Evaluating Text-to-Image Generative Models: An Empirical Study on Human Image Synthesis [21.619269792415903]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルのためのニュアンス評価フレームワークを提案する。
まず,美学やリアリズムといったイメージの質に着目し,第2に,概念的カバレッジと公平性を通じてテキスト条件を検証した。
論文 参考訳(メタデータ) (2024-03-08T07:41:47Z) - Exploring Social Bias in Downstream Applications of Text-to-Image
Foundation Models [72.06006736916821]
合成画像を用いて、社会的バイアスに対するテキスト・画像モデル、画像編集と分類の2つの応用を探索する。
提案手法を用いて,最先端のオープンソーステキスト・ツー・イメージ・モデルであるtextitStable Diffusion における有意義かつ有意義なセクション間社会的バイアスを明らかにする。
本研究は、下流業務・サービスにおけるテキスト・ツー・イメージ基盤モデルの導入について、未発表の点に注意を払っている。
論文 参考訳(メタデータ) (2023-12-05T14:36:49Z) - Aligning Text-to-Image Models using Human Feedback [104.76638092169604]
現在のテキスト・ツー・イメージモデルは、しばしばテキスト・プロンプトと不適切に一致した画像を生成する。
そこで本研究では,人間のフィードバックを用いて,そのようなモデルを調整するための微調整手法を提案する。
その結果,人間のフィードバックから学び,テキスト・ツー・イメージ・モデルを大幅に改善する可能性が示された。
論文 参考訳(メタデータ) (2023-02-23T17:34:53Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。