論文の概要: TuringViT: Making SOTA Vision Transformers Accessible to All
- arxiv url: http://arxiv.org/abs/2606.24253v1
- Date: Tue, 23 Jun 2026 07:42:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.828758
- Title: TuringViT: Making SOTA Vision Transformers Accessible to All
- Title(参考訳): TuringViT:SOTAビジョントランスフォーマーを誰でも使えるように
- Authors: Qiman Wu, Hanlin Chen, Lyujie Chen, Rui Xin, Jianlei Zheng, Mingyuan Wang, Jiahui Hu, Da Zhu, Yuecheng Ma, Yuhua Wei, Yizhao Wang, Hua Zhou, Yuheng Zhang, Anhua Liu, Shaman Tang, Yue He, Pengfei Diao, Shuang Su, Haotong Xin, Weichao Huang, Hang Zhang, Xianming Liu,
- Abstract要約: TuringViTは、チューリング線形注意(Turing Linear Attention)、VISTA-Curation(VISTA-Curation)、動的解像度事前学習(Dynamic- resolution pretraining)の3つの主要な設計で課題に対処する。
TuringViTは、10%のデータだけで、オープンソースのViTベースラインをリードしている。
我々のスケーリング法則分析は、チューリングViTが飽和から遠く離れた、キュレートされたデータスケールで予測可能な改善を続けていることを示している。
- 参考スコア(独自算出の注目度): 40.44858252534576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern VLMs and VLA systems commonly adopt off-the-shelf ViTs such as SigLIP2 as visual encoders, but diverse downstream requirements in latency, temporal modeling, and VLM integration often call for customized SOTA-level ViTs. Training such encoders remains beyond the reach of much of the community, as it requires massive image-text data, while standard softmax attention makes high-resolution or dynamic-resolution pretraining prohibitively costly and often forces low-resolution pretraining followed by post-hoc adaptation. TuringViT addresses these challenges with three key designs: Turing Linear Attention (TLA) for efficient sequence modeling, VISTA-Curation to construct supervision-rich image-video training data, and native dynamic-resolution pretraining that supports flexible inputs from the start and transfers seamlessly to downstream VLMs. As a result, TuringViT outperforms leading open-source ViT baselines with only 10% of the data, achieves stronger downstream VLM performance, and delivers substantially better latency scaling on high-resolution inputs. Our scaling-law analysis further shows that TuringViT continues to improve predictably with curated data scale, far from saturation. Its fast adaptation, hardware-friendly design, and efficient deployment have made it a unified visual foundation across XPeng's AI systems. More broadly, TuringViT provides a reproducible pipeline that dramatically lowers the cost for the community to train, customize, and deploy SOTA-level ViTs, moving toward making such Vision Transformers accessible to all.
- Abstract(参考訳): 現代のVLMやVLAシステムでは、SigLIP2のような市販のVTをビジュアルエンコーダとして採用することが多いが、レイテンシ、時間モデリング、VLM統合では、カスタマイズされたSOTAレベルのVTが要求されることが多い。
このようなエンコーダの訓練は、大量の画像テキストデータを必要とするため、多くのコミュニティに及ばないが、標準的なソフトマックスの注意は、高解像度または動的解像度の事前訓練を違法に高価にし、低解像度の事前訓練を後処理で強制することが多い。
効率的なシーケンスモデリングのためのチューリング線形アテンション(TLA)、監督に富んだイメージビデオトレーニングデータを構築するためのVISTA-Curation、スタートからフレキシブルな入力をサポートし、下流のVLMにシームレスに転送するネイティブな動的解像度事前トレーニングである。
結果として、TuringViTは、リードソースのViTベースラインをわずか10%で上回り、より強力なダウンストリームVLM性能を実現し、高解像度入力での遅延スケーリングを大幅に改善する。
我々のスケーリング法則分析は、チューリングViTが飽和から遠く離れた、キュレートされたデータスケールで予測的に改善を続けていることを示している。
高速適応、ハードウェアフレンドリな設計、効率的なデプロイメントにより、XPengのAIシステム全体で統一された視覚基盤となっている。
より広範に、TuringViTは、コミュニティがSOTAレベルのViTをトレーニング、カスタマイズ、デプロイするコストを劇的に削減する再現可能なパイプラインを提供する。
関連論文リスト
- ViT-AdaLA: Adapting Vision Transformers with Linear Attention [71.36851471416034]
ビジョントランスフォーマー (ViT) ベースの視覚基礎モデル (VFM) は、様々な視覚タスクにおいて顕著な性能を達成している。
ViTの既存の線形アテンションアプローチは、通常、スクラッチから訓練され、かなりの計算資源を必要とする。
本稿では,VFMから線形注意への事前知識の適応と伝達を効果的に行う新しいフレームワークであるViT-AdaLAを提案する。
論文 参考訳(メタデータ) (2026-03-17T02:15:48Z) - ViTMAlis: Towards Latency-Critical Mobile Video Analytics with Vision Transformers [28.741078014867323]
視覚変換器(ViTs)のためのデバイス間オフロードフレームワークViTMAlisを紹介する。
ViTMAlisは、ユーザの認識したレンダリング精度を改善しながら、エンドツーエンドのオフロード遅延を低減する。
我々は,コモディティモバイルおよびエッジデバイス上で,VTMAlisの完全機能プロトタイプを実装した。
論文 参考訳(メタデータ) (2026-01-29T07:43:12Z) - InfiniteVL: Synergizing Linear and Sparse Attention for Highly-Efficient, Unlimited-Input Vision-Language Models [49.08289742711585]
我々は、Gated DeltaNetとSWA(Slide window attention)を相乗化する線形複雑VLMアーキテクチャであるInfiniteVLを提案する。
InfiniteVLは、一定のレイテンシとメモリフットプリントを維持しながら、3.6時間以上の推論高速化を実現する。
ストリーミングビデオ理解のシナリオでは、長期メモリキャッシュを保持しながら、24FPSのリアルタイムプリフィル速度を安定的に維持する。
論文 参考訳(メタデータ) (2025-12-09T17:18:32Z) - LLaVA-UHD v3: Progressive Visual Compression for Efficient Native-Resolution Encoding in MLLMs [52.24096832965001]
提案するプログレッシブ・ビジュアル・圧縮(PVC)法を中心としたMLLMであるLLaVA-UHD v3を提案する。
PVC法は、視覚変換器(ViT)にシームレスに統合して、効率的なネイティブ解像度符号化を可能にする。
ViT-UHDをベースとしたLLaVA-UHD v3はQwen2-VLとの競合性能も達成し、TTFTを1.9倍削減した。
論文 参考訳(メタデータ) (2025-11-26T08:11:10Z) - DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。
まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。
第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文 参考訳(メタデータ) (2025-04-23T18:38:18Z) - ECViT: Efficient Convolutional Vision Transformer with Local-Attention and Multi-scale Stages [0.0]
ビジョントランスフォーマー(ViT)は、長距離依存をモデル化するために自己アテンションを活用することで、コンピュータビジョンに革命をもたらした。
我々は,CNNとトランスフォーマーの強度を効果的に組み合わせたハイブリッドアーキテクチャである,効率的な畳み込み視覚変換器(ECViT)を提案する。
論文 参考訳(メタデータ) (2025-04-21T03:00:17Z) - ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision
Transformer Acceleration with a Linear Taylor Attention [23.874485033096917]
Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。
そこで本研究では,VitaliTy という,VT の推論効率向上のためのハードウェア設計フレームワークを提案する。
ViTALiTyは、ViTにおける注目の低ランクとスパースの両方のコンポーネントを統合する。
論文 参考訳(メタデータ) (2022-11-09T18:58:21Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。