論文の概要: Spatial Priors via Space Filling Curves for Small and Limited Data Vision Transformers
- arxiv url: http://arxiv.org/abs/2606.14757v1
- Date: Mon, 08 Jun 2026 09:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.047054
- Title: Spatial Priors via Space Filling Curves for Small and Limited Data Vision Transformers
- Title(参考訳): 小型・限られたデータビジョン変換器のための空間充填曲線による空間優先
- Authors: Leyla Naz Candogan, Arshia Afzal, Pol Puigdemont, Volkan Cevher,
- Abstract要約: VIOLINは、空間充填曲線 (Space Filling Curves, SFC) を介して、注意の中の空間構造を符号化するアテンション機構である。
幅広い評価において、一貫してパフォーマンスを改善します。
パラメータ効率のよいLoRAのような微調整手法と組み合わせることで、パフォーマンスをさらに向上させることができる。
- 参考スコア(独自算出の注目度): 43.297561003640176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Though Vision Transformers (ViTs) have become the dominant backbone in many computer vision tasks, due to permutation equivariance, their attention mechanism lacks explicit spatial inductive biases. This become particularly important in two settings: when model capacity is small or training data is limited. Inspired by the attention masking strategies in Linear Transformers and the scanning patterns of Vision SSMs, we introduce VIOLIN, a lightweight masked attention mechanism that encodes spatial structure within attention via Space Filling Curves (SFCs) with less than 0.0015% extra parameters and negligible computational overhead. VIOLIN scans the image using multiple SFCs to construct curve-specific decay masks, which are then combined and multiplied with the attention matrix. Across a wide range of evaluations, VIOLIN consistently improves performance. In limited data regimes such as fine-tuning on VTAB-1K, it boosts accuracy across all task groups and by up to 8.7% on the tasks where spatial information is essential. It can be combined with parameter-efficient fine-tuning methods such as LoRA to further increase the performance. Beyond fine-tuning, VIOLIN improves various small scale ViT architectures (e.g., DeiT, DINO) during pretraining on ImageNet-1K. Additionally, on pixel-level CIFAR-100 training, a task that is highly dependent on location information, VIOLIN increases accuracy by up to 7.2%. Overall, VIOLIN provides a computationally efficient yet effective way to inject spatial inductive bias into ViTs, especially benefiting small models and limited data settings.
- Abstract(参考訳): 視覚変換器(ViT)は多くのコンピュータビジョンタスクにおいて支配的なバックボーンとなっているが、置換同値のため、その注意機構は明示的な空間帰納バイアスを欠いている。
これは2つの設定で特に重要になる。モデルキャパシティが小さい場合や、トレーニングデータに制限がある場合だ。
線形変換器のアテンションマスキング戦略とビジョンSSMの走査パターンから着想を得たVIOLINは、スペースフィリング曲線(Space Filling Curves, SFC)を介して、0.0015%の余剰パラメータと無視可能な計算オーバーヘッドで、注意の中の空間構造を符号化する軽量なマスキングアテンション機構である。
VIOLINは複数のSFCを用いて画像をスキャンし、曲線固有の減衰マスクを構築し、アテンションマトリックスと組み合わせて乗算する。
幅広い評価において、VIOLINは一貫してパフォーマンスを改善している。
VTAB-1Kの微調整のような制限されたデータ構造では、全タスク群における精度を最大8.7%向上させ、空間情報が不可欠であるタスクに対して最大8.7%向上させる。
パラメータ効率のよいLoRAのような微調整手法と組み合わせることで、パフォーマンスをさらに向上させることができる。
微調整以外にも、VIOLINはImageNet-1Kでの事前トレーニング中に、様々な小さなViTアーキテクチャ(例:DeiT、DINO)を改善している。
さらに、位置情報に依存するタスクであるピクセルレベルのCIFAR-100トレーニングでは、VIOLINは精度を最大7.2%向上させる。
全体として、VIOLINは空間誘導バイアスをViTに注入する計算的に効率的で効果的な方法を提供する。
関連論文リスト
- DART: Differentiable Dynamic Adaptive Region Tokenizer for Vision Foundation Models [45.12546316524245]
DARTは、完全に微分可能な動的領域適応型トケナイザである。
DARTは学習可能な領域スコアと量子ベースのパーティショニングを使用して、さまざまなサイズのコンテンツ認識パッチを生成する。
DART-Smallは、DiT-Base86の性能とほぼ2倍の推論速度で一致している。
論文 参考訳(メタデータ) (2025-06-12T06:25:37Z) - The Linear Attention Resurrection in Vision Transformer [0.6798775532273751]
ビジョントランスフォーマー(ViT)は最近、コンピュータビジョンを嵐によって捉えた。
ViTsの基盤となるソフトマックスの注目は、時間とメモリの2次的な複雑さを伴い、高解像度画像へのViTsの適用を妨げる。
本稿では,この制限に対処する線形アテンション手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T16:29:17Z) - Fibottention: Inceptive Visual Representation Learning with Diverse Attention Across Heads [10.169639612525643]
トランスフォーマーアーキテクチャにおけるMHSAの代替として,Fibottentionと呼ばれる新しいマルチヘッド自己アテンション(MHSA)モデルを提案する。
フィボテンションはデータ効率が高く、標準的なMHSAよりも大量のトークンを処理するのに適している。
拡張されたフィボナッチ配列に基づいて、構造化されたスパークアテンションを採用しており、ユニークなことに、アテンションヘッドによって異なる。
論文 参考訳(メタデータ) (2024-06-27T17:59:40Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Pruning Self-attentions into Convolutional Layers in Single Path [89.55361659622305]
ビジョントランスフォーマー(ViT)は、様々なコンピュータビジョンタスクに対して印象的なパフォーマンスを実現している。
トレーニング済みのViTを効率よく自動圧縮するSPViT(Single-Path Vision Transformer pruning)を提案する。
われわれのSPViTはDeiT-Bで52.0%のFLOPをトリミングできる。
論文 参考訳(メタデータ) (2021-11-23T11:35:54Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。