論文の概要: RegimeVGGT: Layer-Wise Spatially Preserving Redundancy Removal for Visual Geometry Grounded Transformer
- arxiv url: http://arxiv.org/abs/2606.18439v1
- Date: Tue, 16 Jun 2026 19:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.874939
- Title: RegimeVGGT: Layer-Wise Spatially Preserving Redundancy Removal for Visual Geometry Grounded Transformer
- Title(参考訳): RegimeVGGT:ビジュアル幾何接地変圧器の空間保存冗長性除去
- Authors: Jinhao You, Shuo Lyu, Zhuohang Lyu, Tanxuan Li, Zibo Zhao, Jiaxiang Hu, Kai Tang, Yichen Guo,
- Abstract要約: RegimeVGGTは、多視点画像から1回の前方通過で高密度な3Dシーン構造を復元する。
トレーニング不要のRegimeVGGTは、VGGT*よりも6.7倍のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 7.504392358287952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Geometry Grounded Transformer (VGGT) recovers dense 3D scene structure from multi-view images in one forward pass, but quadratic cross-frame attention limits its scalability. Existing training-free accelerators reduce computation uniformly along one axis, missing layer heterogeneity. Our spectral, probing, and causal analyses reveal three regimes: shallow layers lack cross-view structure, middle layers drive cross-view alignment, and deep layers are redundant for dense geometry yet their cross-frame attention remains essential for pose. RegimeVGGT applies layer-wise U-shaped compression along two axes: Saliency-Guided Banded Merging protects geometry- and edge-salient tokens, while Selectively Protected K/V Downsampling preserves cross-frame spatial coverage and the pose-critical path through a phase-shifted spatial grid, a reference-frame anchor, and uncompressed camera/register tokens. Training-free, RegimeVGGT achieves a 6.7x speedup over VGGT* at matched reconstruction quality.
- Abstract(参考訳): Visual Geometry Grounded Transformer (VGGT)は、多視点画像から1つの前方通過で高密度な3次元シーン構造を復元するが、二次的クロスフレームアテンションはスケーラビリティを制限している。
既存のトレーニングフリーアクセラレーターは、1つの軸に沿って計算を均一に削減する。
浅層はクロスビュー構造を欠き、中層はクロスビューアライメントを駆動し、深層は密度の高い幾何学では冗長であるが、クロスフレームの注意はポーズに不可欠である。
RegimeVGGTは2つの軸に沿ってU字型の層状の圧縮を施している: Saliency-Guided Banded Mergingは、幾何学的およびエッジ的トークンを保護し、Selectively Protected K/V Downsamplingは、位相シフトされた空間グリッド、参照フレームアンカー、非圧縮カメラ/登録トークンを通して、クロスフレーム空間カバレッジとポーズクリティカルパスを保存する。
トレーニング不要のRegimeVGGTは、VGGT*よりも6.7倍のスピードアップを実現している。
関連論文リスト
- IVGT: Implicit Visual Geometry Transformer for Neural Scene Representation [76.36174247570716]
ポーズレス多視点画像から連続的かつ一貫性のある幾何を暗黙的にモデル化するインプリシトビジュアル幾何変換器IVGTを提案する。
IVGTは標準座標系で連続的なニューラルネットワークシーン表現を学習し、任意の3D位置での連続的な空間クエリをサポートする。
連続的かつコヒーレントな表面形状の直接抽出を可能にし、任意の視点からRGB画像、深度マップ、表面正規写像のレンダリングを可能にする。
論文 参考訳(メタデータ) (2026-05-15T17:59:57Z) - VGGT-Edit: Feed-forward Native 3D Scene Editing with Residual Field Prediction [59.303842406260124]
VGGT-Editはテキスト条件のネイティブ3Dシーン編集のためのフィードフォワードフレームワークである。
本研究では,奥行き同期テキストインジェクションを導入し,意味的指導をバックボーンの空間的ポーズと整合させる。
VGGT-Editは2Dリフトベースラインを大幅に上回り、よりシャープなオブジェクトの詳細、より強力なマルチビュー一貫性、ほぼインスタントな推論速度を生み出している。
論文 参考訳(メタデータ) (2026-05-14T17:59:04Z) - LG-HCC: Local Geometry-Aware Hierarchical Context Compression for 3D Gaussian Splatting [77.81227097905865]
アンカーベースの3DGS圧縮スキームは、いくつかの高度な文脈モデルを通してガウスの冗長性を減少させる。
本稿では, アンカープルーニングとエントロピー符号化にアンカー幾何学的相関を組み込んだ3DGSのための局所幾何学的階層型コンテキスト圧縮フレームワークを提案する。
実験の結果、LG-HCCは構造保存の問題を効果的に緩和し、Mip-NeRF360データセット上のScaffold-GSベースラインと比較して最大30.85倍のストレージを削減した。
論文 参考訳(メタデータ) (2026-03-30T13:39:35Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - S-VGGT: Structure-Aware Subscene Decomposition for Scalable 3D Foundation Models [15.408916900664783]
フィードフォワード3Dファンデーションモデルは、グローバルな注目によって導入された二次計算コストという、大きな課題に直面している。
構造フレームレベルでの冗長性に対処する新しいアプローチである textbfS-VGGT を導入する。
S-VGGTは完全にトークンレベルの加速法であり、複雑なスピードアップにシームレスに組み合わせることができる。
論文 参考訳(メタデータ) (2026-03-18T11:42:55Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - Structural Energy-Guided Sampling for View-Consistent Text-to-3D [18.973527029488746]
テキスト・トゥ・3D生成はしばしばジャヌス問題に悩まされ、オブジェクトが他の角度から重複または歪んだ幾何学に崩壊する。
本研究では, 実時間で完全にマルチビューの整合性を実現する学習自由なプラグイン・アンド・プレイフレームワークSEGSを提案する。
論文 参考訳(メタデータ) (2025-08-23T06:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。