論文の概要: UniRED: Unified RGB-D Video Frame Interpolation with Event Guidance
- arxiv url: http://arxiv.org/abs/2606.24282v1
- Date: Tue, 23 Jun 2026 08:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.848069
- Title: UniRED: Unified RGB-D Video Frame Interpolation with Event Guidance
- Title(参考訳): UniRED:イベントガイド付きRGB-Dビデオフレーム補間
- Authors: Yinuo Zhang, Guangshun Wei, Yuanfeng Zhou, Yiran Shen,
- Abstract要約: 高フレームレートのRGB-Dビデオは、モーション分析、動的シーン理解、3D再構成など、さまざまな下流タスクに不可欠である。
既存のビデオ手法は、RGBデータに対して高い性能を達成しているが、RGB-Dシナリオには適用できない。
本稿では,RGBの外観,深度幾何学,イベントベースの時間的手がかりを併用したRGB-Dビデオ用統合マルチモーダルフレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.80142530142947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High frame-rate RGB-D videos are crucial for a variety of downstream tasks, including motion analysis, dynamic scene understanding, and 3D reconstruction. However, due to hardware and sensing constraints, practical RGB-D cameras are typically limited to low frame rates, making it difficult to capture rapid scene dynamics. Existing video interpolation methods have achieved strong performance on RGB data, but they are not readily applicable to RGB-D scenarios, where they often yield blurry boundaries, visible artifacts, and degraded geometric consistency. Furthermore, motion estimation from only two boundary frames is inherently under-constrained in complex dynamic scenes. Event cameras, by contrast, provide asynchronous measurements with ultra-high temporal resolution, offering dense motion cues. In this paper, we propose a unified multimodal framework for RGB-D video interpolation that jointly exploits RGB appearance, depth geometry, and event-based temporal cues. Specifically, it first extracts and fuses RGB, depth and event cues, then estimates bidirectional flow with motion basis refinement for RGB and Z-axial refinement for depth, and finally synthesizes the target RGB-D frame via bidirectional warping and soft blending. In addition, we construct a new RGB-D-Event dataset to alleviate the scarcity of tri-modal training data. Extensive experiments on a public benchmark and the proposed dataset demonstrate that our method achieves superior photometric fidelity for RGB interpolation and stronger geometric accuracy for depth interpolation than existing approaches.
- Abstract(参考訳): 高フレームレートのRGB-Dビデオは、モーション分析、動的シーン理解、3D再構成など、さまざまな下流タスクに不可欠である。
しかし、ハードウェアやセンサーの制約により、実用的なRGB-Dカメラは通常、フレームレートの低いものに制限されるため、素早いシーンのダイナミックスを捉えることは困難である。
既存のビデオ補間法はRGBデータに対して高い性能を達成しているが、RGB-Dのシナリオでは容易には適用できない。
さらに,2つの境界フレームのみからの運動推定は,複雑な動的シーンにおいて本質的に過度に制約されている。
対照的にイベントカメラは、超高時間分解能の非同期計測を提供し、密度の高いモーションキューを提供する。
本稿では,RGBの外観,深度幾何学,イベントベースの時間的手がかりを併用した,RGB-Dビデオ補間のための統一型マルチモーダルフレームワークを提案する。
具体的には、まずRGB、深度、イベントキューを抽出して融合し、次にRGBのモーションベースリファインメントと深度Z軸リファインメントを用いて双方向フローを推定し、最終的には双方向のワープとソフトブレンディングによりターゲットRGB-Dフレームを合成する。
さらに,新たなRGB-D-Eventデータセットを構築し,トリモーダルトレーニングデータの不足を軽減する。
提案手法は,RGB補間において優れた光度忠実度を実現し,深度補間においてより強力な幾何的精度が得られることを示す。
関連論文リスト
- Spatio-Temporal Difference Guided Motion Deblurring with the Complementary Vision Sensor [12.418360718687026]
動きのぼかしは露光期間中に急激なシーン変化が起こると発生し、リッチな露光中の動きを1つのRGBフレームに崩壊させる。
本稿では,RGB入力のぼやけた構造や色の詳細を復元するために,時空間差ガイドデブロアネット(STGDNet)を提案する。
提案手法は,合成CVSデータセットと実世界評価の両方において,現在のRGBやイベントベースのアプローチよりも優れている。
論文 参考訳(メタデータ) (2026-04-12T09:54:14Z) - Spatial Orthogonal Refinement for Robust RGB-Event Visual Object Tracking [8.019596736149834]
空間直交微細化(SOR)に基づくロバストなRGBイベント追跡のためのフレームワークであるSOR-Trackを提案する。
大規模なFE108ベンチマークの実験は、SOR-Trackが既存のフュージョンベースのトラッカーを一貫して上回っていることを示している。
その単純さにもかかわらず、提案手法はマルチモーダルな特徴アライメントとテクスチャの整合に対する原理的かつ物理的なアプローチを提供する。
論文 参考訳(メタデータ) (2026-03-29T23:54:31Z) - Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - DepthMatch: Semi-Supervised RGB-D Scene Parsing through Depth-Guided Regularization [43.974708665104565]
本稿では,RGB-Dシーン解析に特化して設計された半教師付き学習フレームワークDepthMatchを紹介する。
本稿では,RGB-D画像対におけるテクスチャと空間的特徴の潜伏関係を明らかにするために,補間パッチ混在拡大法を提案する。
また,従来の複合核融合モジュールを代替する軽量空間先行インジェクタを設計し,不均一な特徴核融合の効率を向上する。
論文 参考訳(メタデータ) (2025-05-26T14:26:31Z) - Complementing Event Streams and RGB Frames for Hand Mesh Reconstruction [51.87279764576998]
EvRGBHand - イベントカメラとRGBカメラによる3Dハンドメッシュ再構築のための最初のアプローチを提案する。
EvRGBHandは、RGBベースのHMRにおける露出とモーションのぼかしの問題と、イベントベースのHMRにおける前景の不足とバックグラウンドのオーバーフロー問題に対処することができる。
論文 参考訳(メタデータ) (2024-03-12T06:04:50Z) - RPEFlow: Multimodal Fusion of RGB-PointCloud-Event for Joint Optical
Flow and Scene Flow Estimation [43.358140897849616]
本稿では,RGB画像,ポイント雲,イベントを多段階多モード融合モデルであるRPEFlowに組み込む。
合成データと実データの両方の実験により、我々のモデルは既存の最先端技術よりも広いマージンで優れています。
論文 参考訳(メタデータ) (2023-09-26T17:23:55Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - Self-Aligning Depth-regularized Radiance Fields for Asynchronous RGB-D Sequences [12.799443250845224]
タイムスタンプを$rm SE(3)$要素にマッピングする暗黙のネットワークである。
提案アルゴリズムは,(1)時間的関数フィッティング,(2)放射場ブートストレッピング,(3)結合ポーズ誤差補償,および放射場改良の3段階からなる。
また,ドローンによってキャプチャされた実世界の非同期RGB-Dシーケンスに対して,定性的に改善された結果を示す。
論文 参考訳(メタデータ) (2022-11-14T15:37:27Z) - RGB2Hands: Real-Time Tracking of 3D Hand Interactions from Monocular RGB
Video [76.86512780916827]
本稿では,1台のRGBカメラによる骨格ポーズのモーションキャプチャと手の表面形状をリアルタイムに計測する手法を提案する。
RGBデータの本質的な深さの曖昧さに対処するために,我々は新しいマルチタスクCNNを提案する。
RGBの片手追跡と3D再構築パイプラインの個々のコンポーネントを実験的に検証した。
論文 参考訳(メタデータ) (2021-06-22T12:53:56Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。