論文の概要: Adaptive Hebbian Memory Routing in Vision Transformers for Few-Shot Learning
- arxiv url: http://arxiv.org/abs/2606.24756v1
- Date: Tue, 23 Jun 2026 16:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.049297
- Title: Adaptive Hebbian Memory Routing in Vision Transformers for Few-Shot Learning
- Title(参考訳): ファウショット学習のための視覚変換器における適応型ヘビアンメモリルーティング
- Authors: Mohammed Yusuf Mujawar, Noorbakhsh Amiri Golilarz,
- Abstract要約: わずかなショット画像認識では、小さなラベル付きサポートセットから新しいクラスに適応するモデルが必要である。
ヘビアンメモリはエピソード中に一時的な連想情報を提供することができるが、固定メモリの振る舞いは、数発のタスクごとに適切ではないかもしれない。
数ショット変換器の適応型ヘビアンルーティングを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot image recognition requires models to adapt to new classes from a small labeled support set. Hebbian fast-weight memory can provide temporary associative information during an episode, but fixed memory behavior may not be appropriate for every few-shot task. In this work, we propose Adaptive Hebbian Routing for few-shot Vision Transformers. The method uses a lightweight MLP router to control the contribution of Hebbian memory, the strength of memory updates, and the retention of previous memory from support-set features. We study Adaptive Placement, Adaptive Plasticity, and Fully Adaptive Hebbian Routing. Experiments use ViT-Small, DeiT-Small, and Swin-Tiny under 5-way 1-shot evaluation on Omniglot, CIFAR-FS, and cross-domain transfer from CIFAR-FS to Omniglot. In the direct Swin comparison, fixed and adaptive Hebbian variants use the same memory location. Adaptive Plasticity improves the fixed Hebbian result from 96.74\% to 96.92\%, while Fully Adaptive Routing achieves the best result at 96.94\%. The fully adaptive Swin model also reduces inference time from 16.51 ms to 14.05 ms relative to fixed Hebbian Swin. On CIFAR-FS, adaptive variants improve performance across all three backbones, and the multi-shot evaluation shows that these gains remain useful as the number of support examples increases. These results show that adaptive plasticity and adaptive memory activation can improve few-shot Transformer representations beyond fixed Hebbian behavior.
- Abstract(参考訳): わずかなショット画像認識では、小さなラベル付きサポートセットから新しいクラスに適応するモデルが必要である。
ヘビアン高速メモリは、エピソード中に一時的な連想情報を提供することができるが、固定メモリの振る舞いは、数発のタスクごとに適切ではないかもしれない。
本研究では,視覚変換器のアダプティブ・ヘビアン・ルーティングを提案する。
本手法では,Hebbianメモリのコントリビューション,メモリ更新の強度,サポートセット機能からの以前のメモリの保持を軽量なMLPルータで制御する。
適応配置,適応塑性および完全適応ヘビアンルーティングについて検討した。
ViT-Small、DeiT-Small、Swin-Tinyをオムニグロット、CIFAR-FSの5方向1ショット評価およびCIFAR-FSからオムニグロットへのクロスドメイン転送に使用した。
直接スウィン比較では、固定および適応的なヘビアン変種は同じメモリ位置を使用する。
アダプティブ・プラスチックは96.74\%から96.92\%に、フルアダプティブ・ルーティングは96.94\%に改善する。
完全な適応型スウィンモデルは、ヘビアンスウィンに対する推論時間を16.51msから14.05msに短縮する。
CIFAR-FSでは,3つのバックボーン間の適応的変形により性能が向上し,マルチショット評価により,サポート例の数が増えるにつれて,これらのゲインが有用であることが示されている。
これらの結果から,適応的可塑性と適応的メモリアクティベーションは,固定されたヘビアン動作を超越した少数ショットトランスフォーマー表現を改善することが示唆された。
関連論文リスト
- Where to Bind Matters: Hebbian Fast Weights in Vision Transformers for Few-Shot Character Recognition [4.755303069157979]
我々は,変圧器のバックボーンに統合されたヘビアン・ファストウェイト加群について実証的研究を行った。
ViT,DeiT,Swin,ViT-Hebbian,DeiT-Hebbian,Swin-Hebbianの6つのモデル変異体を5-way 1-shotと5-way 5-shotの分類タスクで評価した。
論文 参考訳(メタデータ) (2026-04-22T01:15:29Z) - Factored Levenberg-Marquardt for Diffeomorphic Image Registration: An efficient optimizer for FireANTs [20.35907245543535]
本稿では,信頼領域アプローチを用いて適応的に調整された1つの減衰パラメータのみを状態として要求する改良型レバンス・マルカルト(LM)を提案する。
その結果、大容量で最大24.6%のメモリが削減され、4つのデータセットでパフォーマンスが維持される。
論文 参考訳(メタデータ) (2026-03-19T18:04:42Z) - Diversity-Guided MLP Reduction for Efficient Large Vision Transformers [62.33249256133204]
トランスフォーマーモデルは優れたスケーリング特性を実現し、モデルキャパシティの増大により性能が向上する。
大規模モデルパラメータは、計算とメモリの大幅なコストにつながる。
そこで本稿では,大規模な視覚変換器のパラメータを著しく削減するDGMR法を提案する。
論文 参考訳(メタデータ) (2025-06-10T08:59:27Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。