論文の概要: RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers
- arxiv url: http://arxiv.org/abs/2606.14701v1
- Date: Fri, 12 Jun 2026 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:43.032723
- Title: RATS! Patches Talk Through Registers: Emergent Parts in Register Attention Transformers
- Title(参考訳): RATS! レジスターを通して話す: レジスターアテンション変換器の創発的なパーツ
- Authors: Timing Yang, Predrag Neskovic, Jansen Seheult, Wenchao Han, Anand Bhattad, Alan Yuille, Feng Wang,
- Abstract要約: 本稿では,分類トークンをN個の学習可能なレジスタトークンに分解するRATS(Register Attention Transformers)を提案する。
RATSは5つのセグメンテーションベンチマークの平均で、ベースラインを+12 mIoUで上回る。
この結果から,RATSは構造化および解釈可能な視覚表現学習に有用なアーキテクチャ的事前を提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.232540479423186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When humans see a bird, they recognize far more than just "bird" -- they see a head, wings, and talons, a structured assembly of reusable parts that can be identified across every bird they have ever seen. We ask whether a self-supervised visual model can discover the same compositional structure on its own. To this end, we propose RATS (Register Attention Transformers), which decomposes the classification token into N learnable register tokens that route patch information through an L->N->N->L bottleneck via a three-step compress-communicate-broadcast attention. The N registers are partitioned across the H attention heads, so that registers assigned to different heads do not interact with each other. Without auxiliary losses or part annotations, each register spontaneously specializes into a proto-semantic region whose emerging structure resembles object parts. RATS surpasses all baselines by +12 mIoU on average across five segmentation benchmarks, with consistent gains on ADE20K (+1.11 mIoU) and COCO (+0.2 AP^m). Its register dictionary further exhibits part-level consistency and semantic proximity across related categories. Our results suggest that RATS may provide a useful architectural prior for structured and interpretable visual representation learning.
- Abstract(参考訳): 人間は鳥を見るとき、単に「鳥」と認識するだけでなく、頭、翼、そしてタロンも認識している。
自己教師付き視覚モデルが、同じ構成構造を自分自身で発見できるかどうかを問う。
この目的のために、RATS(Register Attention Transformers)を提案する。これは、分類トークンをN個の学習可能なレジスタトークンに分解し、L->N->N->Lボトルネックを介して3ステップの圧縮・通信・ブロードキャストの注意を通してパッチ情報をルーティングする。
NレジスタはHアテンションヘッドにまたがって分割されるため、異なるヘッドに割り当てられたレジスタは互いに相互作用しない。
補助的な損失や部分アノテーションがなければ、各レジスタは自然に、オブジェクト部品に類似した出現する構造を持つプロトセマンティック領域に特殊化される。
RATSは、ADE20K (+1.11 mIoU) とCOCO (+0.2 AP^m) で一貫した利得で、5つのセグメンテーションベンチマークで平均で+12 mIoUを超える。
レジスタ辞書はさらに、関連するカテゴリ間の部分レベルの一貫性とセマンティックな近接性を示す。
この結果から,RATSは構造化および解釈可能な視覚表現学習に有用なアーキテクチャ的事前を提供する可能性が示唆された。
関連論文リスト
- Geometric Factual Recall in Transformers [57.48371649045765]
一般的な見解では、内部の重み行列は埋め込みのペアに対する連想記憶として捉えられ、事実の数と線形にスケールする記憶数を必要とする。
我々は、学習した埋め込みが直接構造を符号化する、別のエンフェロメトリックな形態の記憶の理論的、実証的な説明を開発する。
単層変圧器が被写体から共有属性集合へのランダムベクトルを記憶しなければならない制御環境では、対数埋め込み次元が十分であることを示す。
これらの結果をマルチホップ設定に拡張し、証明可能なチェーン・オブ・シークレットによる構築を提供する。
論文 参考訳(メタデータ) (2026-05-12T17:22:22Z) - Learning the Signature of Memorization in Autoregressive Language Models [3.6048665052465663]
我々は,任意のコーパス上の任意のモデルを微調整することで,ラベル付きデータを無制限に生成する,最初のトランスファー可能な学習攻撃を導入する。
これにより、シャドーモデルボトルネックが取り除かれ、深層学習時代へのメンバシップ推論がもたらされる。
論文 参考訳(メタデータ) (2026-04-03T17:17:51Z) - Patch-level Representation Learning for Self-supervised Vision
Transformers [68.8862419248863]
視覚変換器(ViT)は近年、より優れたアーキテクチャ選択として多くの注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。
これに触発された私たちは、パッチレベルの表現をより良く学習するための、SelfPatchという、シンプルで効果的なビジュアルプリテキストタスクを設計しました。
我々は、既存のSSLメソッドの様々な視覚的タスクに対する性能を大幅に改善できることを実証した。
論文 参考訳(メタデータ) (2022-06-16T08:01:19Z) - SWAT: Spatial Structure Within and Among Tokens [53.525469741515884]
我々は,トークン化時に空間構造が保存される場合,モデルが顕著な利得が得られることを論じる。
本研究では,(1)構造認識のトークン化と(2)構造認識のミキシングという2つの重要なコントリビューションを提案する。
論文 参考訳(メタデータ) (2021-11-26T18:59:38Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Independent Prototype Propagation for Zero-Shot Compositionality [1.2676356746752893]
本稿では,新しいプログレッシブグラフ法であるProtoPropを提案する。
まず、条件付き独立な対象の原型表現を学習する。
次に、合成グラフを通して独立プロトタイプを伝搬する。
一般化された合成ゼロショット設定では、最先端の結果よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-01T08:24:09Z) - AAformer: Auto-Aligned Transformer for Person Re-Identification [82.45385078624301]
トランスアーキテクチャにおけるアライメント方式を初めて導入する。
本研究では,人体と非人体の両方をパッチレベルで自動的に検出する自動整列トランス (AAformer) を提案する。
AAformerは、部分アライメントを自己アテンションに統合し、出力[PART]を直接検索する機能として使用することができる。
論文 参考訳(メタデータ) (2021-04-02T08:00:25Z) - Registration Loss Learning for Deep Probabilistic Point Set Registration [0.0]
点集合登録の確率的方法には、使用点数の線形複雑性のような興味深い理論的性質がある。
本研究では,その認識性能を最先端技術に合わせるために改良する。
我々は、登録誤りを直接損失として利用する登録損失学習戦略(RLL)を用いて、これらを共同で学習する。
論文 参考訳(メタデータ) (2020-11-04T11:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。