論文の概要: UoU: A Universal Fingerprint Foundation Model Based on Large-Scale Unsupervised Learning
- arxiv url: http://arxiv.org/abs/2606.17436v1
- Date: Tue, 16 Jun 2026 02:37:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.224155
- Title: UoU: A Universal Fingerprint Foundation Model Based on Large-Scale Unsupervised Learning
- Title(参考訳): UoU: 大規模教師なし学習に基づくユニバーサルフィンガープリント基礎モデル
- Authors: Xiongjun Guan, Jianjiang Feng, Jie Zhou,
- Abstract要約: 大規模なtextbfUnsupervised learning を用いたtextbfUniversal fingerprint foundation model を略した UoU を提案する。
UoUは、画像復元、構造フィールド、セマンティックトークン、ポイントレベルの生体認証エンティティ、コンパクトなグローバルディスクリプタにまたがる多層表現階層を中心に構成されている。
指紋画像を汎用的なテクスチャとして扱うのではなく、UoUはドメイン固有の対称性と中間構造を利用する。
- 参考スコア(独自算出の注目度): 26.659951781434017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fingerprint recognition is still dominated by task-specific pipelines, where enhancement, structural parsing, alignment, and matching are optimized in isolation. Although effective in narrow settings, this design limits representation reuse across sensors, qualities, and downstream applications. We therefore present UoU, short for ``a \textbf{U}niversal fingerprint foundation model based \textbf{o}n large-scale \textbf{U}nsupervised learning,'' which reframes fingerprint feature extraction as a domain-specific foundation-model problem. UoU is organized around a multi-level representation hierarchy spanning image restoration, structural fields, semantic tokens, point-level biometric entities, and compact global descriptors. Its training recipe combines a supervised cold start on precise annotations, large-scale weakly supervised refinement, and large-scale unsupervised consolidation, with the latter two stages iterated during large-scale training so that weak supervision broadens semantic coverage while unsupervised learning stabilizes correspondences, invariances, and representation geometry. Rather than treating fingerprint imagery as generic texture, UoU exploits domain-specific symmetries and intermediate structure, including orientation flow, periodic ridge patterns, sparse biometric entities, and spatial equivariance. The framework is intentionally architecture-agnostic: while the present study includes an initial transformer-based structured-prediction instantiation, the broader design supports multi-task learning, scalable model configurations, and downstream specialization for matching, alignment, enhancement, registration, and related fingerprint applications. This paper presents the technical motivation, system design, and validation protocol of UoU, and part of the baseline implementation is publicly available at https://github.com/XiongjunGuan/UoU.
- Abstract(参考訳): フィンガープリント認識は依然としてタスク固有のパイプラインに支配されており、拡張、構造解析、アライメント、マッチングを分離して最適化する。
狭い環境では有効だが、この設計はセンサー、品質、下流のアプリケーション間での表現再利用を制限する。
そこで,本論文では,‘a \textbf{U}niversal fingerprint foundation model based \textbf{o}n Large-scale \textbf{U}nsupervised learning’と略して,指紋特徴抽出をドメイン固有の基盤モデル問題として再編成するUoUを提案する。
UoUは、画像復元、構造フィールド、セマンティックトークン、ポイントレベルの生体認証エンティティ、コンパクトなグローバルディスクリプタにまたがる多層表現階層を中心に構成されている。
そのトレーニングレシピは、厳密なアノテーションによる教師付きコールドスタート、大規模な弱弱教師付き洗練、および大規模な非教師付き統合と、大規模トレーニング中に大規模に反復された2つのステージを組み合わせることで、教師なし学習が対応、不変性、表現幾何学を安定化させながら、教師なしの監督がセマンティックカバレッジを広げる。
指紋画像を汎用的なテクスチャとして扱う代わりに、UoUは、向きの流れ、周期的な隆起パターン、スパースバイオメトリックーエンティティ、空間的等式など、ドメイン固有の対称性と中間構造を利用する。
このフレームワークは意図的アーキテクチャに依存しない:本研究は、初期変換器に基づく構造化予測インスタンス化を含むが、より広範な設計は、マルチタスク学習、スケーラブルなモデル構成、マッチング、アライメント、拡張、登録、関連する指紋アプリケーションのための下流の特殊化をサポートする。
本稿では,UoUの技術的モチベーション,システム設計,検証プロトコルについて紹介し,ベースライン実装の一部はhttps://github.com/XiongjunGuan/UoUで公開されている。
関連論文リスト
- Toward the Whole Picture: Accumulative Fingerprint Mapping and Reconstruction for Small-Area Mobile Sensors [26.659951781434017]
我々は,小面積移動センシングのための強調指紋マッピングと再構築を提唱する。
本稿では、パッチ単位での構造的特徴抽出、特徴レベルの登録と融合、指紋マップの構築、位相に基づくリッジ再構築を行う古典的なパイプラインを提案する。
この視点は、マルチキャプチャマルチマッチ処理からアキュマティブマップ構築、ステートリファインメント、ワンショットマッチングへと、モバイル指紋認識を再構成する。
論文 参考訳(メタデータ) (2026-06-14T03:32:50Z) - HiTokSR: A Coarse-to-Fine Tokenizer with Hierarchical Codebooks for High-Fidelity Real-World Image Super-Resolution [2.4519602914420475]
階層的なトークン予測フレームワークであるHiTokSRを提案する。
この結果から,HiTokSRは品質と再現性の両方において最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-05-31T11:02:58Z) - StructDiff: A Structure-Preserving and Spatially Controllable Diffusion Model for Single-Image Generation [72.84181869780627]
StructDiffは、単一画像生成のための単一スケール拡散モデルに基づく生成フレームワークである。
3次元位置符号化(PE)を空間的先行として組み込んでおり、生成されたオブジェクトの位置、スケール、局所的な詳細を柔軟に制御することができる。
また、テキスト誘導画像生成、画像編集、アウトペインティング、ペイント・ツー・イメージ合成など、下流タスクにも幅広い適用性を示す。
論文 参考訳(メタデータ) (2026-04-14T10:55:43Z) - Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation [23.546777614096424]
ショーショットセグメンテーション(FSS)は、限られた監督力を持つ新しいクラスに一般化する能力において大きな注目を集めている。
本稿では、クラス固有のプロトタイプを洗練するための構造的一貫性と識別をモデル化する統合フレームワークであるVINEを導入することにより、これらの課題に対処する。
論文 参考訳(メタデータ) (2026-03-06T06:36:42Z) - Entropy-Aware Structural Alignment for Zero-Shot Handwritten Chinese Character Recognition [7.632962062462334]
ゼロショット手書き漢字認識は、急進的な意味合成を活用することで、目に見えない文字を認識することを目的としている。
本稿では,情報理論モデリングにより視覚と意味のギャップを埋めるエントロピー対応構造アライメントネットワークを提案する。
ICDAR 2013データセットで55.04%の精度を達成し,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-03T16:08:40Z) - Divide, Conquer and Unite: Hierarchical Style-Recalibrated Prototype Alignment for Federated Medical Image Segmentation [66.82598255715696]
フェデレートラーニング(Federated Learning)は、複数の医療機関がデータを共有することなく、グローバルなモデルをトレーニングすることを可能にする。
現在のアプローチは主に、重要なマルチレベルキューを見下ろす最終層機能に重点を置いている。
我々は,ドメイン不変のコンテキスト型プロトタイプアライメントを介して特徴表現ギャップをブリッジするFedBCSを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:15:34Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Learning and Evaluating Hierarchical Feature Representations [3.770103075126785]
我々は、直交部分空間の階層的構成(Hier-COS)という新しい枠組みを提案する。
Hier-COSは、与えられた分類木の構造と整合した設計により、深い特徴埋め込みをベクトル空間にマッピングすることを学ぶ。
Hier-COSはすべてのデータセットにまたがって最先端の階層的パフォーマンスを実現し,同時に1つのケースを除いてトップ1の精度を上回ります。
論文 参考訳(メタデータ) (2025-03-10T20:59:41Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。