論文の概要: StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
- arxiv url: http://arxiv.org/abs/2606.20527v1
- Date: Thu, 18 Jun 2026 17:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.032846
- Title: StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs
- Title(参考訳): StylisticBias:MLLMでもっともソーシャルな自転車を運転する人間のビジュアルクイズ
- Authors: Shaghayegh Kolli, Timo Cavelius, Nafiseh Nikeghbal, Samantha Dalal, Jana Diesner,
- Abstract要約: 我々は、大きな言語モデルにおける属性レベルの社会的バイアスを評価するためのベンチマークであるStylisticBiasを紹介する。
500のベースフェイスを生成し、約50の単一属性のバリエーションを生成し、約25Kの画像を生成します。
年齢と体型がアイデンティティレベルの効果を支配しているのに対して、ファッションスタイルやその他の視覚的手がかりは属性レベルの最大のシフトを駆動している。
- 参考スコア(独自算出の注目度): 4.570229064032341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) are increasingly deployed in personally and societally consequential settings, yet the visual cues that shape how these models judge people remain poorly understood. Prior work often compares different (groups of) individuals, making it difficult to separate appearance effects from identity differences. We introduce StylisticBias, a controlled benchmark for evaluating attribute-level social bias in MLLMs. We generate 500 photorealistic base faces and create about 50 single-attribute variations per face, producing about 25K images. This design keeps identity fixed and changes one visual attribute at a time. It lets us measure how specific cues shift model judgments. We evaluate six MLLMs across 25 binary social judgment scenarios. We find that age and body type dominate identity-level effects, while fashion style and other visual cues drive the largest attribute-level shifts. We further find that about 15 attributes account for nearly 80\% of the total variation, showing that bias is concentrated in a small set of visual cues. Sensitivity is strongest in judgments that are semantically aligned with appearance, especially socioeconomic and style-related judgments. We release StylisticBias as a benchmark for fine-grained bias evaluation in multimodal models. Code and dataset: https://github.com/timo-cavelius/StylisticBias and https://hf.co/datasets/shaghayegh/stylistic-bias-dataset.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)は、個人的および社会的に連続した環境にますます展開されているが、これらのモデルが人々を判断する方法を形成する視覚的手がかりは、まだ理解されていないままである。
以前の作業はしばしば異なる(グループの)個人を比較し、外観効果と同一性の違いを区別することは困難である。
MLLMにおける属性レベルの社会的バイアスを評価するための制御ベンチマークであるStylisticBiasを紹介する。
我々は500枚のフォトリアリスティックなベースフェイスを生成し、約50個の単一属性のバリエーションを作成し、約25Kの画像を生成します。
この設計はアイデンティティを固定し、一度に1つの視覚的属性を変更する。
特定の手がかりがモデル判断をどう変えるかを測定することができます。
25の連立社会的判断シナリオでMLLMを6つ評価した。
年齢と体型がアイデンティティレベルの効果を支配しているのに対して、ファッションスタイルやその他の視覚的手がかりは属性レベルの最大のシフトを駆動している。
さらに、約15の属性が全体の80%近くを占めており、バイアスが小さな視覚的手がかりに集中していることが示されている。
感性は、外見、特に社会経済やスタイルに関する判断と意味的に一致した判断において最強である。
我々はマルチモーダルモデルにおけるきめ細かいバイアス評価のベンチマークとしてStylisticBiasをリリースした。
コードとデータセット: https://github.com/timo-cavelius/StylisticBias and https://hf.co/datasets/shaghayegh/stylistic-bias-dataset。
関連論文リスト
- Measuring Social Bias in Vision-Language Models with Face-Only Counterfactuals from Real Photos [79.03150233804458]
現実のイメージは人種と性別を混在させ、背景や衣服などの関連要因や属性を隠蔽する。
テキストのみの対実的評価パラダイムを提案する。
我々は、人種や性別に関連する顔属性のみを編集し、他の視覚的要素を全て固定することで、反事実的変異を生成する。
論文 参考訳(メタデータ) (2026-01-11T14:35:06Z) - Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment [8.451522319478512]
各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
論文 参考訳(メタデータ) (2025-09-24T00:33:58Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [45.41676783204022]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Probing Intersectional Biases in Vision-Language Models with
Counterfactual Examples [5.870913541790421]
我々は、テキスト・ツー・イメージ拡散モデルを用いて、大規模に侵入する社会的バイアスを探索する対実例を作成する。
提案手法では,安定拡散とクロスアテンション制御を用いて,対実的画像とテキストのペアのセットを生成する。
我々は、最先端のVLMに存在する交叉社会的バイアスを明らかにするために、生成されたデータセットを用いて広範な実験を行う。
論文 参考訳(メタデータ) (2023-10-04T17:25:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。