Fugu-MT 論文翻訳(概要): RaysUp: Ultra-light Universal Feature Upsampling via Geometry-Aware Ray Representation

論文の概要: RaysUp: Ultra-light Universal Feature Upsampling via Geometry-Aware Ray Representation

arxiv url: http://arxiv.org/abs/2606.22749v1
Date: Mon, 22 Jun 2026 01:37:56 GMT
ステータス: 情報取得中
システム内更新日: 2026-06-24 20:32:26.310393
Title: RaysUp: Ultra-light Universal Feature Upsampling via Geometry-Aware Ray Representation
Title（参考訳）: RaysUp: 幾何学を意識した画像表現による超軽量ユニバーサル機能アップサンプリング
Authors: Yuchuan Ding, Linfei Li, Lin Zhang, Ying Shen,
Abstract要約: RaysUpは超軽量でタスクに依存しない、VFMに依存しない機能アップサンプリングフレームワークである。任意の密接な一般化で高分解能特徴写像を再構成する。実験によると、RaysUpはAnyUpのパラメータの16%しか使用していない。
参考スコア（独自算出の注目度）: 11.94699228168484
License:
Abstract: Pre-trained Vision Foundation Models (VFMs) have become central to modern computer vision due to their powerful semantic representations and strong generalization ability. However, their patchified or pooled outputs are inherently low-resolution, limiting their effectiveness in tasks requiring fine-grained, pixel-level reasoning. Existing feature upsampling approaches either degrade semantic fidelity or rely on VFM-specific retraining and heavy architectures, hindering efficiency and scalability. To address these challenges, we propose RaysUp, an ultra-lightweight, task-agnostic, and VFM-agnostic feature upsampling framework that reconstructs high-resolution feature maps at arbitrary resolutions. Unlike conventional 2D interpolation or attention-based schemes, RaysUp lifts feature reconstruction into a geometry-aware ray domain. Specifically, we introduce a Spatially Decoupled Guidance Encoder for direction-aware guidance encoding, an Any-Resolution Cross-Attention mechanism for resolution-flexible reconstruction, and a novel Ray Positional Encoding (RayPE) that injects implicit 3D geometric priors via 6D Plucker ray coordinates. Finally, a Geometry-Aware Neighborhood Attention module further ensures content-adaptive bilateral aggregation while preserving geometric consistency. Extensive experiments across diverse dense prediction tasks demonstrate that RaysUp achieves state-of-the-art performance while using only 16% of the parameters of AnyUp and delivering approximately 7x faster inference. These results highlight a substantially improved accuracy-efficiency trade-off and establish RaysUp as a practical and scalable solution for universal feature upsampling. Code is available at https://github.com/MAP-RaysUp/RaysUp.
Abstract（参考訳）: 事前訓練されたビジョンファウンデーションモデル(VFM)は、強力なセマンティック表現と強力な一般化能力により、現代のコンピュータビジョンの中心となっている。しかし、パッチやプールされた出力は本質的に低解像度であり、細粒度でピクセルレベルの推論を必要とするタスクにおける有効性を制限している。既存の機能アップサンプリングアプローチは、セマンティクスの忠実度を低下させるか、VFM固有のリトレーニングと重アーキテクチャに依存しているため、効率性とスケーラビリティを損なう。これらの課題に対処するために、任意の解像度で高解像度の特徴マップを再構成する超軽量、タスク非依存、VFM非依存の機能アップサンプリングフレームワークであるRaysUpを提案する。従来の2D補間やアテンションベースのスキームとは異なり、RaysUpは特徴を幾何学的に認識した領域に再構成する。具体的には、方向対応誘導符号化のための空間的に分離されたガイダンスエンコーダ、解像度フレキシブルな再構成のためのAny-Resolution Cross-Attentionメカニズム、および6次元プルーカー線座標を介して暗黙的な3次元幾何学的先行情報を注入するRayPE(Ray Positional Encoding)を紹介する。最後に、Geometry-Aware Neighborhood Attentionモジュールは、幾何学的整合性を維持しながら、コンテンツ適応二元アグリゲーションをさらに保証する。多様な密集した予測タスクにわたる大規模な実験は、RaysUpが最先端のパフォーマンスを実現し、AnyUpのパラメータの16%しか使用せず、およそ7倍高速な推論を提供することを示した。これらの結果は精度と効率のトレードオフを大幅に改善し、RaysUpを普遍的な機能アップサンプリングのための実用的でスケーラブルなソリューションとして確立した。コードはhttps://github.com/MAP-RaysUp/RaysUpで入手できる。

関連論文リスト

UHD Low-Light Image Enhancement via Real-Time Enhancement Methods with Clifford Information Fusion [51.51707075741303]
幾何学的特徴融合に基づく新しいリアルタイムUHD低照度拡張ネットワークを提案する。本手法は,1台のコンシューマグレードデバイス上での4K/8K画像に対するミリ秒レベルの推論を実現する。
論文参考訳（メタデータ） (2026-04-10T13:47:04Z)
LSRM: High-Fidelity Object-Centric Reconstruction via Scaled Context Windows [10.300202521638274]
本研究では,大規模スパース再構成モデルを導入し,拡張型コンテクストウィンドウがフィードフォワード3D再構成に与える影響について検討する。アクティブなオブジェクトや画像トークンの数を大幅に増やすことで、コンテキストウィンドウを拡大することで、このギャップを著しく狭め、高忠実度な3Dオブジェクト再構成と逆レンダリングを可能にします。
論文参考訳（メタデータ） (2026-04-06T21:21:12Z)
DST-Net: A Dual-Stream Transformer with Illumination-Independent Feature Guidance and Multi-Scale Spatial Convolution for Low-Light Image Enhancement [9.193933558950341]
低照度画像強調は、薄暗い環境で視覚センサーが捉えた画像の可視性を回復することを目的としている。本稿では,照明非依存信号の事前誘導とマルチスケール空間畳み込みに基づくDST-Netを提案する。 LOLデータセット上のPSNRは25.64dBである。
論文参考訳（メタデータ） (2026-03-17T13:07:32Z)
PointVDP: Learning View-Dependent Projection by Fireworks Rays for 3D Point Cloud Segmentation [66.00721801098574]
本稿では,ポイントクラウドのセグメンテーションを容易にするために,ビュー依存プロジェクション(VDP)を提案する。 VDPは3Dポイント分布からデータ駆動プロジェクションを生成する。フレームワークを最適化するために色規則化を構築します。
論文参考訳（メタデータ） (2025-07-09T07:44:00Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [49.81255045696323]
補助メタデータ駆動型赤外小型ターゲット検出器(AuxDet)について述べる。 AuxDetはメタデータセマンティクスと視覚的特徴を統合し、各サンプルに対する適応表現学習を導く。挑戦的なWideIRSTD-Fullベンチマークの実験は、AuxDetが一貫して最先端のメソッドより優れていることを示した。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
BEAM: Bridging Physically-based Rendering and Gaussian Modeling for Relightable Volumetric Video [58.97416204208624]
BEAMは、4Dガウス表現を物理ベースレンダリング(PBR)でブリッジし、高品質でライティング可能なビデオを生成する新しいパイプラインである。 BEAMは、様々な照明条件下で現実的な人生のような可視化を提供することで、インタラクティブなエンターテイメント、ストーリーテリング、クリエイティブな可視化の新しい可能性を開く。
論文参考訳（メタデータ） (2025-02-12T10:58:09Z)
CRAYM: Neural Field Optimization via Camera RAY Matching [48.25100687172752]
マルチビュー画像からカメラポーズとニューラルフィールドのジョイント最適化にカメラレイマッチング(CRAYM)を導入する。入力画像のキーポイントを通過するカメラ光に焦点をあてて、各光線最適化と一致した光線コヒーレンスを定式化する。
論文参考訳（メタデータ） (2024-12-02T15:39:09Z)
GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。 GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-06-21T17:49:31Z)
DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。 DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文参考訳（メタデータ） (2022-12-05T14:00:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。