論文の概要: Boosting Text-Driven Video Segmentation via Geometry-Aware Distillation
- arxiv url: http://arxiv.org/abs/2606.24464v1
- Date: Tue, 23 Jun 2026 11:57:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.933917
- Title: Boosting Text-Driven Video Segmentation via Geometry-Aware Distillation
- Title(参考訳): 幾何認識蒸留によるテキスト駆動ビデオセグメンテーションの強化
- Authors: Tianyu Zhu, Yingping Liang, Hesong Li, Ying Fu,
- Abstract要約: テキスト駆動の参照ビデオオブジェクト(RVOS)は、自然言語で指定されたビデオ内の対象物を特定し、セグメント化することを目的としている。
既存のモデルは、通常、2D画像またはビデオデータセットに基づいて、単純なセグメンテーション損失でトレーニングされる。
テキスト駆動ビデオセグメンテーションを強化するために,GeoLaV(Geometry-enhanced Language-Guided Video segmentation)を提案する。
- 参考スコア(独自算出の注目度): 17.44364775825169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven Referring Video Object Segmentation (RVOS) aims to locate and segment target objects in videos given natural language. However, existing models are typically trained on 2D image or video datasets with naive segmentation losses, which overlooks the geometric consistency across frames and leads to weak spatial understanding. In this paper, we propose Geometry-enhanced Language-guided Video segmentation (GeoLaV), a two-stage framework that distills 3D geometric knowledge from images to enhance text-driven video segmentation. In the first stage, we perform monocular geometry pretraining with monocular novel-view synthesis, enabling the model to acquire geometry-consistent visual representations via spatial alignment on large-scale single-image datasets. In the second stage, we introduce geometry-aware distillation and fine-tune the model on video segmentation datasets, transferring 3D structural knowledge from a general 3D prior model. This process reinforces 3D awareness and improves both spatiotemporal coherence and language grounding in segmentation. Extensive experiments show that our method using only image segmentation data already provides notable zero-shot generalization in RVOS. When combined with geometry-aware distillation for fine-tuning on videos, our method achieves state-of-the-art performance across multiple RVOS benchmarks. The code is available at https://github.com/Tony1882880/GeoLaV.
- Abstract(参考訳): テキスト駆動の参照 ビデオオブジェクトセグメンテーション(RVOS)は、自然言語で指定されたビデオのターゲットオブジェクトの検索とセグメンテーションを目的としている。
しかし、既存のモデルは、通常、2次元画像またはビデオデータセットで訓練され、偏差の損失が生ずるため、フレーム間の幾何的一貫性を見落とし、空間的理解が弱くなる。
本稿では,画像から3次元の幾何学的知識を抽出し,テキスト駆動ビデオセグメンテーションを強化する2段階フレームワークGeoLaVを提案する。
第1段階では、単眼のノベルビュー合成による単眼幾何学の事前学習を行い、大規模な単一画像データセットの空間的アライメントにより、モデルが幾何一貫性のある視覚表現を取得できるようにする。
第2段階では,3次元先行モデルから3次元構造的知識を移譲し,ビデオセグメンテーションデータセット上での幾何認識蒸留と微調整を行う。
このプロセスは3次元認識を強化し、空間的コヒーレンスとセグメンテーションにおける言語基盤の両方を改善する。
大規模な実験により,画像分割データのみを用いた手法は,RVOSにおいて既に顕著なゼロショット一般化を実現していることがわかった。
ビデオの微調整のための幾何対応蒸留と組み合わせることで,複数のRVOSベンチマークで最先端の性能を実現する。
コードはhttps://github.com/Tony1882880/GeoLaVで公開されている。
関連論文リスト
- Geometry-as-context: Modulating Explicit 3D in Scene-consistent Video Generation to Geometry Context [33.99324999592141]
Scene-Consistent Video Generationは、カメラの軌跡に基づいて3Dシーンを探索するビデオを作成することを目的としている。
従来の手法では、外部メモリを用いたビデオ生成モデルに一貫性がある。
これらの制限を克服するために、幾何・アズ・コンテクスト”を導入します。
論文 参考訳(メタデータ) (2026-02-25T14:09:03Z) - Scalable Adaptation of 3D Geometric Foundation Models via Weak Supervision from Internet Video [76.32954467706581]
本稿では,生のビデオストリームからGEometric foundationモデルのスケーラブル適応を行うフレームワークであるSAGEを提案する。
階層的なマイニングパイプラインを使用して、ビデオをトレーニングトラジェクトリやハイブリッド監視に変換します。
実験の結果、SAGEはゼロショットの一般化を著しく向上し、チェムファー距離を20-42%削減した。
論文 参考訳(メタデータ) (2026-02-08T09:53:21Z) - Learning to Reason in 4D: Dynamic Spatial Understanding for Vision Language Models [79.18306680174011]
DSR Suiteは、データセット、ベンチマーク、モデルの各面にギャップを埋める。
そこで本研究では,DSRビデオから複数問合せペアを生成する自動パイプラインを提案する。
パイプラインは、カメラポーズ、局所点雲、オブジェクトマスク、向き、および3Dトラジェクトリを含む、豊富な幾何学的および運動的な情報を抽出する。
論文 参考訳(メタデータ) (2025-12-23T17:56:36Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - Geometry Forcing: Marrying Video Diffusion and 3D Representation for Consistent World Modeling [29.723534231743038]
本稿では,映像拡散モデルと物理世界の3次元的性質のギャップを埋めるために,幾何学的強制法を提案する。
我々の重要な洞察は、事前訓練された幾何学基礎モデルの特徴と整列することで、モデル中間表現を幾何学的構造へ導くことである。
我々は、カメラビューコンディショニングとアクションコンディショニングの両方のビデオ生成タスクにおいて、Geometry Forcingを評価する。
論文 参考訳(メタデータ) (2025-07-10T17:55:08Z) - 3D Part Segmentation via Geometric Aggregation of 2D Visual Features [57.20161517451834]
監督された3D部分分割モデルは、固定されたオブジェクトと部品のセットに合わせて調整されており、それらの転送可能性は、オープンセットの現実世界のシナリオに制限される。
近年、視覚言語モデル(VLM)を多視点レンダリングとテキストプロンプトを用いてオブジェクト部品の識別に活用する研究が進められている。
これらの制約に対処するために,視覚概念から抽出した意味論と3次元幾何学をブレンドし,対象部品を効果的に同定するCOPSを提案する。
論文 参考訳(メタデータ) (2024-12-05T15:27:58Z) - Geometrically-driven Aggregation for Zero-shot 3D Point Cloud Understanding [11.416392706435415]
ゼロショット3Dポイントクラウド理解は2Dビジョンランゲージモデル(VLM)によって達成できる
既存の戦略は、ヴィジュアル・ランゲージ・モデル(Vision-Language Model)をレンダリングまたはキャプチャされた2Dピクセルから3Dポイントにマッピングし、固有かつ表現可能な雲の幾何学構造を見渡す。
本稿では, 点雲の3次元幾何学的構造を利用して, 移動したビジョン・ランゲージモデルの品質を向上させるための, 初となるトレーニングフリーアグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T12:30:07Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。