論文の概要: Modality Forcing for Scalable Spatial Generation
- arxiv url: http://arxiv.org/abs/2606.13676v1
- Date: Thu, 11 Jun 2026 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.984673
- Title: Modality Forcing for Scalable Spatial Generation
- Title(参考訳): スケーラブルな空間生成のためのモダリティ強制
- Authors: Bardienus Pieter Duisterhof, Deva Ramanan, Jeffrey Ichnowski, Justin Johnson, Keunhong Park,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルは、豊富な空間的事前を含む。
先行研究は、深度予測に先立ってT2Iモデルを適用するが、深度データが必要であり、複雑なレシピが伴う。
スパース深度データに基づいて訓練された1つのDiTを用いて、共同画像深度生成のためのシンプルでスケーラブルなポストトレーニングレシピであるModality Forcingを提案する。
- 参考スコア(独自算出の注目度): 54.04539566839143
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image (T2I) models contain rich spatial priors. Synthesizing photorealistic, cluttered scenes requires an understanding of geometry, including perspective and relative scale. Prior works adapt T2I models to leverage this prior for depth prediction, but they require dense depth data and involve complex recipes. We propose Modality Forcing, a simple, scalable post-training recipe for joint image-depth generation using a single DiT trained on sparse depth data. Modality Forcing enables conditional and joint generation of image and depth in any permutation by assigning separate noise levels per modality. Per-modality decoders let us train on sparse, real-world depth and achieve strong, generalizable depth prediction. We further show that Modality Forcing inherits the scalability of T2I pre-training: by training a set of T2I models from scratch (370M to 3.3B parameters), we find that larger models trained on more image data produce more accurate depth. Our strongest model is competitive with state-of-the-art monocular depth estimators and reduces AbsRel by 57% relative to existing joint image-depth generative models. These results provide strong evidence that image generation is a scalable pre-training objective for spatial perception. https://modality-forcing.github.io/
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは、豊富な空間的事前を含む。
フォトリアリスティックで散らばったシーンを合成するには、視点や相対スケールを含む幾何学の理解が必要である。
先行研究は、深度予測に先立ってT2Iモデルを適用するが、深度データが必要であり、複雑なレシピが伴う。
スパース深度データに基づいて訓練された1つのDiTを用いて、共同画像深度生成のためのシンプルでスケーラブルなポストトレーニングレシピであるModality Forcingを提案する。
モーダリティ強制は、モーダリティ毎に別々のノイズレベルを割り当てることにより、任意の置換における画像と深さの条件付きおよび共同生成を可能にする。
モードごとのデコーダにより、スパースで現実世界の深度をトレーニングし、強力で一般化可能な深度予測を実現できます。
T2Iモデルのスクラッチ(370Mから3.3Bパラメータ)からトレーニングすることで、より多くの画像データに基づいてトレーニングされたより大きなモデルにより、より正確な深度が得られることがわかった。
我々の最強のモデルは、最先端の単分子深度推定器と競合し、既存の関節画像深度生成モデルと比較して、AbsRelを57%削減する。
これらの結果は、画像生成が空間知覚のためのスケーラブルな事前学習対象であることを示す強力な証拠となる。
https://modality-forcing.github.io/
関連論文リスト
- BRIDGE -- Building Reinforcement-Learning Depth-to-Image Data Generation Engine for Monocular Depth Estimation [17.554501937884172]
BRIDGEはRL最適化Deep-to-image(D2I)生成フレームワークである。
現実的かつ幾何学的に正確なRGB画像を20万枚以上合成する。
我々は,このデータセット上で,ハイブリッド監視戦略を用いて深度推定モデルを訓練する。
論文 参考訳(メタデータ) (2025-09-29T17:19:45Z) - Propagating Sparse Depth via Depth Foundation Model for Out-of-Distribution Depth Completion [33.854696587141355]
本研究では,大規模トレーニングを伴わずに,深度基礎モデルを利用して顕著な堅牢性を実現する新しい深度補修フレームワークを提案する。
具体的には、深度基盤モデルを用いて、RGB画像から構造的・意味的文脈を含む環境条件を抽出し、疎度情報の欠落領域への伝播を誘導する。
我々のフレームワークはOODシナリオにおいて非常によく機能し、既存の最先端の深度補完手法よりも優れています。
論文 参考訳(メタデータ) (2025-08-07T02:38:24Z) - DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data [87.61900472933523]
この研究は、ロバストな単分子深度推定のための非常に実用的な解であるDepth Anythingを提示する。
データエンジンを設計し、大規模な未ラベルデータの収集と注釈付けを自動的に行うことにより、データセットをスケールアップします。
6つのパブリックデータセットとランダムにキャプチャされた写真を含む、ゼロショットの機能を広範囲に評価する。
論文 参考訳(メタデータ) (2024-01-19T18:59:52Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。