論文の概要: Architectural Bias in Face Presentation Attack Detection: A Comparative Study of Vision Transformers and Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2606.18510v1
- Date: Tue, 16 Jun 2026 22:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.90866
- Title: Architectural Bias in Face Presentation Attack Detection: A Comparative Study of Vision Transformers and Convolutional Neural Networks
- Title(参考訳): 顔提示検出におけるアーキテクチャバイアス:視覚変換器と畳み込みニューラルネットワークの比較検討
- Authors: Ngela Landon Ntung, Floride Tuyisenge, Jema David Ndibwile,
- Abstract要約: Face Presentation Detection (PAD) システムは生体認証において重要なセキュリティ層を構成する。
PADシステムは、人口集団間での系統的なパフォーマンス格差を示し、より暗い肌のトーンを持つ個人に不均等に影響を及ぼす。
本稿では,視覚トランスフォーマーアーキテクチャが PAD システムにおける人口統計バイアスを減少させるかどうかを比較検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Face Presentation Attack Detection (PAD) systems constitute a critical security layer in biometric authentication; however, existing approaches exhibit systematic performance disparities across demographic groups, disproportionately affecting individuals with darker skin tones. This paper presents a comparative empirical investigation of whether Vision Transformer architectures reduce demographic bias in face PAD systems relative to convolutional baselines. Experiments are conducted on the CASIA-SURF Cross-Ethnicity Face Anti-Spoofing (CeFA) dataset. Three architectures are evaluated: a Multimodal ViT-Tiny trained from scratch, a ResNet18 CNN baseline, and a pretrained DeiT-S fine-tuned on CeFA across African, East Asian, and zero-shot Central Asian demographic groups. DeiT-S achieves the highest overall accuracy of 97.27% and the lowest EER of 0.86%, outperforming ResNet18 at 90.15% accuracy. In terms of fairness, DeiT-S reduces the inter-ethnic ACER gap between African and East Asian subjects to 0.13%, compared to 0.75% reported in an LBP-based work [6], representing an 83% reduction. Most notably, while ResNet18 records a BPCER of 10.44% on zero-shot Central Asian subjects, DeiT-S maintains 2.89% on the same unseen group, demonstrating a 3.6x generalization advantage. These results suggest that pretrained Vision Transformers achieve superior PAD accuracy, produce smaller demographic performance gaps, and generalize more equitably across unseen demographic groups, indicating that cross-demographic fairness in PAD may partly be influenced by architectural design.
- Abstract(参考訳): 顔提示攻撃検出 (PAD) システムは生体認証において重要なセキュリティ層となっているが、既存の手法では集団間での系統的な性能格差が示されており、肌の色調が暗い人には不適切である。
本稿では、視覚トランスフォーマーアーキテクチャが、畳み込みベースラインに対する PAD システムにおける人口統計バイアスを減少させるかどうかを比較検討する。
CASIA-SURFクロスエスニシティ・フェイス・アンチ・スプーフィング(CeFA)データセットを用いて実験を行った。
3つのアーキテクチャが評価されている: スクラッチから訓練されたMultimodal ViT-Tiny、ResNet18 CNNベースライン、アフリカ、東アジア、およびゼロショットの中央アジアの人口集団にわたるCeFAで微調整されたDeiT-S。
DeiT-Sは97.27%、EERは0.86%で、ResNet18を90.15%の精度で上回っている。
公平性の観点からは、DeiT-Sはアフリカと東アジアの被験者間の民族間ACERギャップを0.13%に減らしている。
ResNet18は10.44%のBPCERをゼロショットの中央アジアで記録しているが、DeiT-Sは2.89%を同じ目に見えないグループで維持しており、3.6倍の一般化の優位性を示している。
これらの結果は、事前学習された視覚変換器がより優れたPAD精度を実現し、人口動態のギャップを小さくし、不明瞭な人口集団をまたいでより均等に一般化し、PADのクロスデミノグラフィーフェアネスが建築設計の影響を受けていることを示唆している。
関連論文リスト
- Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images [52.50752250573993]
MLLM(Multimodal Large Language Models)は、視覚的知覚が強いが、視点の変化による空間の推論には限界がある。
本研究では、この課題を全方位360度画像におけるパースペクティブ・コンディションド・スペース・推論(PCSR)として検討する。
我々は2,600全方位画像から84,373組の質問応答対の診断ベンチマークであるPCSR-Benchを紹介する。
論文 参考訳(メタデータ) (2026-05-12T17:11:17Z) - Leveraging Natural Language Processing and Machine Learning for Evidence-Based Food Security Policy Decision-Making in Data-Scarce Making [0.0]
ZeroHungerAIは、極端なデータ不足下でのエビデンスベースの食品セキュリティポリシーモデリングのために設計されたフレームワークである。
システムは、構造化社会経済指標と、伝達学習に基づく DistilBERT アーキテクチャを用いた文脈的ポリシーテキスト埋め込みを組み合わせる。
論文 参考訳(メタデータ) (2026-03-20T18:54:09Z) - FairTune: A Bias-Aware Fine-Tuning Framework Towards Fair Heart Rate Prediction from PPG [6.706472230997956]
ローカルデプロイメントのための微調整基盤モデルは、実用的でスケーラブルな戦略と見なされることが多い。
微調整は平均絶対誤差(80%まで)を大幅に削減するが、公平性ギャップを同時に広げることができる。
FairTuneはバイアス対応の微調整フレームワークで、3つの緩和戦略をベンチマークします。
論文 参考訳(メタデータ) (2025-09-20T01:42:26Z) - GANDiff FR: Hybrid GAN Diffusion Synthesis for Causal Bias Attribution in Face Recognition [0.0]
GANDiff FRは、人口動態や環境要因を正確に制御し、再現可能な厳密さで偏見を計測し、説明し、低減する最初の合成フレームワークである。
我々は5つのコホートにまたがる1万の人種的バランスのとれた顔を、自動検出と人的レビューによって合成する。
一致する操作ポイントの下でArcFace、CosFace、AdaFaceをベンチマークすると、AdaFaceはグループ間のTPR格差を60%削減する。
GANDiff FR は、純粋な GAN と比較して約20%の計算オーバーヘッドがあるにもかかわらず、3倍の属性条件付き変種が得られる。
論文 参考訳(メタデータ) (2025-08-15T09:05:57Z) - SLYKLatent: A Learning Framework for Gaze Estimation Using Deep Facial Feature Learning [0.0]
SLYKLatentは、データセットの外観不安定性問題に対処することで、視線推定を向上するための新しいアプローチである。
SLYKLatentは、自己教師付き学習を使用して、表情データセットでの初期トレーニングを行い、その後、パッチベースのトリブランチネットワークで改善する。
ベンチマークデータセットの評価では、Gaze360が10.9%改善され、トップMPIIFaceGazeの3.8%に取って代わられ、ETH-XGazeのサブセットが11.6%向上した。
論文 参考訳(メタデータ) (2024-02-02T16:47:18Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - Patch-Level Contrasting without Patch Correspondence for Accurate and
Dense Contrastive Representation Learning [79.43940012723539]
ADCLRは、正確で高密度な視覚表現を学習するための自己教師型学習フレームワークである。
提案手法は, コントラッシブな手法のための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-06-23T07:38:09Z) - Mitigating Face Recognition Bias via Group Adaptive Classifier [53.15616844833305]
この研究は、全てのグループの顔がより平等に表現できる公正な顔表現を学ぶことを目的としている。
我々の研究は、競争精度を維持しながら、人口集団間での顔認識バイアスを軽減することができる。
論文 参考訳(メタデータ) (2020-06-13T06:43:37Z) - CASIA-SURF CeFA: A Benchmark for Multi-modal Cross-ethnicity Face
Anti-spoofing [83.05878126420706]
CeFA (CASIA-SURF Cross-ethnicity Face Anti-spoofing dataset) について紹介する。
CeFAは、顔の偽造防止のための、現在の公開/リリースデータセットに明示的な民族ラベルを含む最初のデータセットである。
本稿では,これらのバイアスを緩和する強力なベースラインとして,新しいマルチモーダル融合法を提案する。
論文 参考訳(メタデータ) (2020-03-11T06:58:54Z) - Post-Comparison Mitigation of Demographic Bias in Face Recognition Using
Fair Score Normalization [15.431761867166]
顔認識におけるバイアスの影響を低減するために,教師なしのフェアスコア正規化手法を提案する。
我々の解決策は、性別を考慮した場合の人口バイアスを最大82.7%削減する。
従来の研究とは対照的に、我々の公正な正規化アプローチは、偽一致率0.001で53.2%、偽一致率0.00001で82.9%まで全体の性能を向上させる。
論文 参考訳(メタデータ) (2020-02-10T08:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。