Fugu-MT 論文翻訳(概要): Vision Transformers for Face Recognition Need More Registers

論文の概要: Vision Transformers for Face Recognition Need More Registers

arxiv url: http://arxiv.org/abs/2606.12036v1
Date: Wed, 10 Jun 2026 12:58:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-11 16:42:38.460608
Title: Vision Transformers for Face Recognition Need More Registers
Title（参考訳）: 顔認識のための視覚変換器
Authors: Tahar Chettaoui, Guray Ozgur, Eduarda Caldeira, Naser Damer, Fadi Boutros,
Abstract要約: 顔認識(FR)のための視覚変換器(ViT)の最近の進歩は、標準のCLSベースのパラダイムを超えて進んでいる。このパラダイムでは、パッチ埋め込みに特別な分類トークン(トークン)がプリコンパイルされ、下流タスクの入力の表現として使用される。本稿では,CPE (ConChenated Patch Embeddings) を提案する。その代わりに,すべてのパッチトークンを単一のベクトルに結合して,コンパクトな顔表現に投影する。
参考スコア（独自算出の注目度）: 16.250163286204593
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in Vision Transformers (ViTs) for face recognition (FR) have moved beyond the standard CLS-token paradigm. In this paradigm, a special classification token (CLS) is prepended to the patch embeddings and used as a representation of the input for downstream tasks. An alternative approach, Concatenated Patch Embeddings (CPE), instead leverages all patch tokens by concatenating them into a single vector, which is then projected into a compact face representation. CPE has been shown to improve recognition performance in comparison to CLS-based ones, but our qualitative analysis of attention maps showed the presence of artifacts that limit their interpretability. To address this issue, we incorporate register tokens, learnable tokens concatenated to the initial patch embeddings, and processed jointly through the ViT encoder blocks. This mechanism has been shown to produce more structured and interpretable attention maps compared to baseline ViT. We empirically demonstrate that these artifacts consistently appear across various ViT backbones, including small and large models, and that introducing register tokens effectively mitigates them. Adding four or eight registers significantly enhances interpretability, with eight registers providing the highest verification accuracies and smoothest attention structures. Our resulting model, ViT-8R, corresponds to a CPE-based ViT-B architecture augmented with eight register tokens achieves state-of-the-art performance among ViT-based FR models on large-scale IJB-B and IJB-C benchmarks. Also, ViT-8R produces substantially clearer attention maps compared with the baseline model, which offer deeper insight into the model's attention behavior (https://github.com/TaharChettaoui/ViT-FR-Registers)
Abstract（参考訳）: 顔認識(FR)のための視覚変換器(ViT)の最近の進歩は、標準のCLS-tokenパラダイムを超えて進んでいる。このパラダイムでは、パッチの埋め込みに特別な分類トークン(CLS)がプリコンパイルされ、下流タスクの入力の表現として使用される。代替のアプローチとして、CPE(Concatenated Patch Embeddings)があるが、代わりにパッチトークンを1つのベクトルにまとめて、コンパクトな顔表現に投影することで、すべてのパッチトークンを活用する。 CPE は CLS ベースのものと比較して認識性能を向上させることが示されているが,注意マップの質的解析により,その解釈可能性を制限する人工物の存在が示された。この問題に対処するために、レジスタトークン、初期パッチ埋め込みに連結された学習可能なトークンを組み込み、ViTエンコーダブロックを介して共同で処理する。この機構は、ベースラインの ViT と比較して、より構造化され、解釈可能な注意マップを生成することが示されている。我々は、これらのアーティファクトが、小さくて大きなモデルを含む様々なViTバックボーンに一貫して現れ、レジスタトークンの導入が効果的に軽減されることを実証的に実証した。 4つまたは8つのレジスタを追加することで解釈可能性が大きく向上し、8つのレジスタは高い検証精度と最も滑らかな注意構造を提供する。我々のモデルであるViT-8Rは、大規模IJB-BおよびIJB-Cベンチマークにおいて、8つのレジスタトークンを付加したCPEベースのViT-Bアーキテクチャに対応し、VTベースのFRモデル間の最先端性能を実現する。また、ViT-8Rはベースラインモデルと比較してかなり明確な注意マップを生成し、モデルの注意行動に関する深い洞察を提供する(https://github.com/TaharChettaoui/ViT-FR-Registers)。

関連論文リスト

UniRefiner: Teaching Pre-trained ViTs to Self-Dispose Dross via Contrastive Register [30.077265994339303]
位置整合のセマンティクスをエンコードしないトークンはすべて、突発的なアーティファクトとして扱われるべきである、と我々は主張する。我々は、これらのアーティファクトの自己配置を事前学習したビジョントランスフォーマーに教える普遍的な洗練フレームワークUniRefinerを提案する。 EVA-CLIP-8B や InternViT-6B などの大規模モデルを含む多種多様な ViT を改良するためには, 5k 画像の微調整がわずかに必要である。
論文参考訳（メタデータ） (2026-05-19T10:00:14Z)
Registers Matter for Pixel-Space Diffusion Transformers [22.836387612443037]
Vision Transformer (ViTs) は、機能マップの品質を低下させる、高いノームなパッチトークのアウトリーチを示すことで知られている。 DiT が ViT と重要な点で異なることを示す。レジスタトークンは画素空間DiTの収束と生成品質を著しく向上させる。
論文参考訳（メタデータ） (2026-05-15T16:27:10Z)
Taming Outlier Tokens in Diffusion Transformers [55.42341508886889]
画像生成のための拡散変換器(DiT)の外部トークンについて検討する。この現象は、現代の表現オートエンコーダ(RAE)-DiTパイプラインのエンコーダとデノイザの両方に現れる。両コンポーネントのレジスタベースの介入であるDSR(Dual-Stage Registers)を導入する。
論文参考訳（メタデータ） (2026-05-06T17:59:42Z)
SPOT: Sparsification with Attention Dynamics via Token Relevance in Vision Transformers [9.24617274894642]
視覚変換器(ViT)内の冗長トークンを早期に検出するためのフレームワークとして,Token Relevance (SPOT) を用いた attentiOn dynamics を用いたSParsification を提案する。 SPOTはトークンスペーシフィケーションを通知し、そのようなトークンを除去し、性能を犠牲にすることなく計算効率を向上させる。実験による評価では、通常のViTに比べて40%の効率向上が見られた。
論文参考訳（メタデータ） (2025-11-13T16:56:24Z)
Tensor Product Attention Is All You Need [61.3442269053374]
プロダクトアテンション(TPA)は、テンソル分解を使用してクエリ、キー、値をコンパクトに表現する新しいアテンションメカニズムである。 TPAは、メモリ効率とともに改善されたモデル品質を実現する。 TPAに基づいて,シーケンスモデリングのための新しいモデルアーキテクチャであるProducT ATTion Transformer (T6)を紹介する。
論文参考訳（メタデータ） (2025-01-11T03:37:10Z)
Patch-level Representation Learning for Self-supervised Vision Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文参考訳（メタデータ） (2022-06-16T08:01:19Z)
PaCa-ViT: Learning Patch-to-Cluster Attention in Vision Transformers [9.63371509052453]
本稿では、視覚変換器(ViT)におけるパッチ・クラスタ・アテンション(PaCa)の学習を提案する。提案したPaCaモジュールは、効率的かつ解釈可能なViTバックボーンとセマンティックセグメンテーションヘッドネットワークの設計に使用される。線形複雑性のため、MS-COCOやMIT-ADE20kのPVTモデルよりもはるかに効率的である。
論文参考訳（メタデータ） (2022-03-22T18:28:02Z)
Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文参考訳（メタデータ） (2021-11-24T16:48:57Z)
On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文参考訳（メタデータ） (2021-06-08T08:20:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。