論文の概要: Interpolation between Convolution and Attention via K-Nearest Neighbors
- arxiv url: http://arxiv.org/abs/2606.14725v1
- Date: Sun, 31 May 2026 23:23:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.746365
- Title: Interpolation between Convolution and Attention via K-Nearest Neighbors
- Title(参考訳): K-Nearest Neighborによる畳み込みと注意の補間
- Authors: Mingi Kang,
- Abstract要約: 我々は、畳み込みと自己注意は、単一のk-ネアレスト隣の集約フレームワークで統一できると主張している。
このコネクションを形式化する統一フレームワークであるConvNN(Convolutional Nearest Neighbors)を紹介します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The shift from Convolutional Neural Networks to Transformers has reshaped computer vision, yet these two architectural families are typically viewed as fundamentally distinct. Convolutional Neural Networks are defined by spatially local convolution operations, while Transformers rely on global self-attention. We argue that convolution and self-attention, despite their apparent differences, can be unified within a single k-nearest neighbor aggregation framework. The critical insight is that both operations are special cases of neighbor selection and weighted aggregation. Convolution selects neighbors by spatial proximity while self-attention selects by feature similarity, revealing that they lie on a continuous spectrum rather than representing categorically different computations. We introduce Convolutional Nearest Neighbors (ConvNN), a unified framework that formalizes this connection. ConvNN exactly recovers standard and depthwise convolution by restricting neighbor selection to normalized spatial coordinates, and exactly recovers self-attention and its sparse variants, including KVT-attention, by replacing spatial proximity with scaled dot-product similarity. Beyond these special cases, ConvNN serves as a drop-in replacement for both convolution and attention layers, enabling systematic exploration of the intermediate spectrum between local and global aggregation through configurable similarity functions, neighbor selection strategies, positional encodings, and aggregation kernels.
- Abstract(参考訳): 畳み込みニューラルネットワークからトランスフォーマーへのシフトはコンピュータビジョンに変化をもたらしたが、これら2つのアーキテクチャファミリは基本的には別物と見なされる。
畳み込みニューラルネットワークは空間的に局所的な畳み込み演算によって定義される。
畳み込みと自己注意は、明らかな相違にもかかわらず、1つのk-アネレスの隣り合う集約フレームワークで統一することができると論じる。
批判的な洞察は、どちらの操作も、隣接する選択と重み付け集約の特別なケースであるということである。
畳み込みは空間的近接によって隣人を選別し、自己意図は特徴的類似性によって選択し、それらが分類学的に異なる計算を表すのではなく、連続スペクトル上に置かれていることを明らかにする。
このコネクションを形式化する統一フレームワークであるConvNN(Convolutional Nearest Neighbors)を紹介します。
ConvNNは、隣接する選択を正規化された空間座標に制限することで、標準的および深度的な畳み込みを正確に回復し、空間的近接を拡大したドット積類似性に置き換えることで、自己アテンションとKVTアテンションを含むスパース変種を正確に回復する。
これらの特別なケース以外にも、ConvNNは畳み込み層とアテンション層の両方の代替として機能し、構成可能な類似性関数、隣接する選択戦略、位置エンコーディング、集約カーネルを通じて局所的および大域的アグリゲーションの中間スペクトルを体系的に探索することができる。
関連論文リスト
- SONIC: Spectral Oriented Neural Invariant Convolutions [0.0]
畳み込みニューラルネットワーク(CNN)は、ローカルパッチをスキャンする固定サイズのカーネルに依存している。
ViTはグローバル接続を提供するが、空間的帰納バイアスがなく、明示的な位置エンコーディングに依存し、初期パッチサイズに結びついている。
本稿では,共振子演算子を,一組の共振子選択成分を用いてモデル化する連続スペクトルパラメータ化SONICを紹介する。
論文 参考訳(メタデータ) (2026-01-27T18:51:11Z) - Attention Via Convolutional Nearest Neighbors [0.5729426778193399]
我々は、畳み込みと自己注意は、単一のk-ネアレスト近傍アグリゲーションフレームワークで統一できると主張している。
このコネクションを形式化する統一フレームワークであるConvNN(Convolutional Nearest Neighbors)を紹介します。
CIFAR-10とCIFAR-100の分類タスクにおけるフレームワークの一貫性を検証する。
論文 参考訳(メタデータ) (2025-11-18T04:54:39Z) - Augmenting Convolutional networks with attention-based aggregation [55.97184767391253]
我々は,非局所的推論を実現するために,注目に基づくグローバルマップを用いた畳み込みネットワークの強化方法を示す。
この学習集約層を2つのパラメータ(幅と深さ)でパラメータ化した単純パッチベースの畳み込みネットワークで接続する。
これは、特にメモリ消費の点で、精度と複雑さの間の驚くほど競争力のあるトレードオフをもたらす。
論文 参考訳(メタデータ) (2021-12-27T14:05:41Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Coordinate Independent Convolutional Networks -- Isometry and Gauge
Equivariant Convolutions on Riemannian Manifolds [70.32518963244466]
平坦空間と比較して大きな複雑さは、コンボリューション核が多様体にどのようなアライメントを適用するべきかが不明確であることである。
コーディネート化の特定の選択は、ネットワークの推論に影響を与えるべきではない、と我々は主張する。
座標独立と重み共有の同時要求は、ネットワーク上の同変要求をもたらす。
論文 参考訳(メタデータ) (2021-06-10T19:54:19Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Field Convolutions for Surface CNNs [19.897276088740995]
簡単な観測に基づいてベクトル場に作用する新しい曲面畳み込み演算子を提案する。
この定式化は、散乱演算において内在的な空間畳み込みと平行輸送を組み合わせる。
基本幾何処理タスクにおける標準ベンチマークの最先端結果を得る。
論文 参考訳(メタデータ) (2021-04-08T17:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。