論文の概要: ViT-Up: Faithful Feature Upsampling for Vision Transformers
- arxiv url: http://arxiv.org/abs/2606.14024v1
- Date: Fri, 12 Jun 2026 01:55:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.705341
- Title: ViT-Up: Faithful Feature Upsampling for Vision Transformers
- Title(参考訳): ViT-Up: ビジョントランスフォーマーのための忠実な機能アップサンプリング
- Authors: Krispin Wandel, Jingchuan Wang, Hesheng Wang,
- Abstract要約: 視覚変換器(ViT)は視覚表現学習において支配的なアーキテクチャとなっている。
ViTは、グローバルな自己注意の二次的なコストのため、比較的小さなパッチ・トーケン・グリッドで一般的に運用される。
我々は、外部画像ガイダンスを中間のViT隠蔽状態から階層的にクエリ構造に置き換えるフレームワークであるViT-Upを紹介する。
- 参考スコア(独自算出の注目度): 19.84545321813943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision Transformers (ViTs) have become a dominant architecture for visual representation learning, providing exceptionally strong and broadly reusable backbone features. However, ViTs are commonly operated on relatively small patch-token grids due to the quadratic cost of global self-attention, which creates a persistent bottleneck for dense prediction tasks such as semantic segmentation and depth estimation. This has motivated the development of task-agnostic feature upsamplers. While recent state-of-the-art methods produce visually sharp dense representations, their reliance on shallow image encoders for guided upsampling can introduce feature leakage, fragmentation, and blur. We introduce ViT-Up, an implicit feature upsampling framework that replaces external image guidance with layer-wise query construction from intermediate ViT hidden states. This enables feature prediction at arbitrary continuous image coordinates while preserving alignment with the backbone feature space. Experiments demonstrate that ViT-Up consistently outperforms state-of-the-art image-guided upsamplers across dense prediction and semantic correspondence. On DINOv3-S+, ViT-Up improves over prior methods by up to +2.07 mIoU on Cityscapes and +4.17 PCK@0.10 on SPair-71k. With the larger DINOv3-B backbone, these gains increase to +3.36 mIoU and +8.09 PCK@0.10, demonstrating that ViT-Up scales favorably with backbone capacity.
- Abstract(参考訳): 視覚変換器(ViT)は視覚表現学習において支配的なアーキテクチャとなり、非常に強力で広く再利用可能なバックボーン機能を提供する。
しかし、ViTは、大域的自己注意の二次的コストのため、比較的小さなパッチ・トーケン・グリッド上で動作し、セマンティックセグメンテーションや深さ推定のような密集した予測タスクに永続的なボトルネックを生じさせる。
これはタスクに依存しない機能アップサンプラーの開発を動機付けている。
最近の最先端の手法は視覚的に鋭い濃密な表現を生成するが、ガイドアップサンプリングのための浅層画像エンコーダに依存しているため、特徴漏れ、断片化、ぼやけを引き起こすことがある。
我々はViT-Upを紹介した。これは暗黙的な機能アップサンプリングフレームワークで、外部イメージガイダンスを中間のViT隠蔽状態から階層的にクエリ構造に置き換える。
これにより、バックボーンの特徴空間とのアライメントを維持しながら、任意の連続した画像座標における特徴予測が可能になる。
実験により、ViT-Upは高密度の予測とセマンティック対応によって、最先端のイメージガイドアップサンプラーよりも一貫して優れていることが示された。
DINOv3-S+では、ViT-Upは以前の方法よりも、Cityscapesでは+2.07 mIoU、SPair-71kでは+4.17 PCK@0.10に改善されている。
より大きなDINOv3-Bのバックボーンにより、これらのゲインは+3.36 mIoUと+8.09 PCK@0.10に増加し、ViT-Upはバックボーンの容量で良好にスケールすることを示した。
関連論文リスト
- One-Shot Refiner: Boosting Feed-forward Novel View Synthesis via One-Step Diffusion [57.824020826432815]
スパース画像から高忠実性ノベルビュー合成(NVS)を実現するための新しいフレームワークを提案する。
ViTバックボーンによって制限されることなく高解像度画像を処理できるデュアルドメイン詳細知覚モジュールを設計する。
我々は,修復過程において高周波の詳細を保存できる特徴誘導拡散ネットワークを開発した。
論文 参考訳(メタデータ) (2026-01-20T17:11:55Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - CAIT: Triple-Win Compression towards High Accuracy, Fast Inference, and Favorable Transferability For ViTs [89.79139531731637]
ビジョントランスフォーマー (ViT) は様々なビジョンタスクの最先端モデルとして登場した。
本稿では,高次アンダーライン精度,高速アンダーライン推論速度,下流タスクに対する好適なアンダーライン変換性を両立させたViTの合同アンダーライン圧縮法を提案する。
論文 参考訳(メタデータ) (2023-09-27T16:12:07Z) - RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in
Autonomous Driving [80.14669385741202]
視覚変換器(ViT)は多くの画像ベースのベンチマークで最先端の結果を得た。
ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために大量のトレーニングデータを必要とする。
提案手法はRangeViTと呼ばれ,nuScenes や Semantic KITTI において既存のプロジェクションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-24T18:50:48Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。