論文の概要: VideoSEG-O3: A Multi-turn Reinforcement Learning Framework for Reasoning Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2606.06819v1
- Date: Fri, 05 Jun 2026 01:44:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.506526
- Title: VideoSEG-O3: A Multi-turn Reinforcement Learning Framework for Reasoning Video Object Segmentation
- Title(参考訳): VideoSEG-O3: ビデオオブジェクトセグメンテーションを推論するマルチターン強化学習フレームワーク
- Authors: Ming Dai, Sen Yang, Boqiang Duan, Boyuan Tong, Jiedong Zhuang, Wankou Yang, Jingdong Wang,
- Abstract要約: Reasoning Video Object (RVOS) は時間力学、空間的詳細、言語的推論の洗練された統合を必要とする。
RVOSの最初のマルチターン強化学習フレームワークである textbfVideoSEG-O3 を提案する。
- 参考スコア(独自算出の注目度): 38.77426504855051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning Video Object Segmentation (RVOS) demands a sophisticated integration of temporal dynamics, spatial details, and linguistic reasoning to achieve precise pixel-level localization. Existing methods are limited to reasoning over fixed initial inputs and lack the capacity to actively acquire further visual evidence, which is often essential for resolving complex references in long or intricate videos. To address this, we propose \textbf{VideoSEG-O3}, the first multi-turn reinforcement learning framework for RVOS that emulates the human \textit{``coarse-to-fine''} cognitive process. It employs a \textit{multi-turn temporal-spatial chain-of-thought} to capture fine-grained details by iteratively pinpointing critical intervals and keyframes. Additionally, to enable the policy to perceive segmentation quality beyond mere text probability of \texttt{[SEG]} during the RL stage, we introduce \textit{SEG-aware logit calibration}, which integrates pixel-wise segmentation feedback directly into the token-level logits. Furthermore, we design a \textit{decoupled thinking trace} to hierarchically decompose the reasoning process into temporal, spatial, and linguistic dimensions, and construct \textbf{VTS-CoT}, a specialized cold-start dataset featuring comprehensive reasoning trajectories. The code and models will be released at https://github.com/Dmmm1997/VideoSEG-O3.
- Abstract(参考訳): Reasoning Video Object Segmentation (RVOS)は、正確なピクセルレベルのローカライゼーションを実現するために、時間的ダイナミクス、空間的詳細、言語的推論の洗練された統合を要求する。
既存の手法は、固定された初期入力の推論に限られており、より視覚的な証拠を積極的に取得する能力が欠如している。
そこで我々は,ヒトの「textit{``coarse-to-fine'」認知過程をエミュレートするRVOSのための,最初のマルチターン強化学習フレームワークである「textbf{VideoSEG-O3}」を提案する。
クリティカルインターバルとキーフレームを反復的にピンポイントすることで、きめ細かい詳細を捉えるために、‘textit{multi-turn temporal-spatial chain-of-thinkt’ を使用する。
さらに,RLの段階では,単にテキストの確率を超えるセグメンテーション品質を知覚するために,トークンレベルのロジットに直接画素単位のセグメンテーションフィードバックを組み込む「textit{SEG-aware logit calibration}」を導入する。
さらに,解析過程を時間的,空間的,言語的次元に階層的に分解する「textit{decoupled thinking trace}」を設計し,包括的な推論軌道を特徴とする特別な冷間開始データセットである「textbf{VTS-CoT}」を構築した。
コードとモデルはhttps://github.com/Dmmm1997/VideoSEG-O3.comで公開される。
関連論文リスト
- Smart-Insertion-V: Photorealistic Video Insertion via a Closed-Loop Feedback Dual-Stream Framework [52.477407591581176]
マスクのないビデオオブジェクト挿入は、ソースビデオへの参照オブジェクトの調和を要する、困難なタスクとして登場した。
ビデオ挿入と画像スタイル転送を同時に行う,エンドツーエンドのtextbfDual-Stream フレームワークである textittextbfSmart-Insertion-V を提案する。
論文 参考訳(メタデータ) (2026-05-22T17:54:54Z) - VideoAtlas: Navigating Long-Form Video in Logarithmic Compute [3.705718227493618]
textbfVideoAtlasは、動画を階層的なグリッドとして表現するためのタスクに依存しない環境である。
階層構造により、アクセス深度はビデオ長と対数的にのみ増大する。
ビデオRLMは1時間から10時間に及ぶベンチマークのスケーリングにおいて、最小限の精度の劣化を伴う最も長い時間ロバストな方法である。
論文 参考訳(メタデータ) (2026-03-18T17:20:19Z) - Xiaoice: Training-Free Video Understanding via Self-Supervised Spatio-Temporal Clustering of Semantic Features [10.21556794551883]
本稿では,エンド・ツー・エンドのトレーニングを回避できる,ビデオ理解のための新しい学習自由フレームワークを提案する。
我々の中心となる考え方は、高次元の特徴空間内の自己監督的時間的クラスタリングとしての映像理解である。
このアプローチは、ビデオコンテンツのゼロショット、自動構造解析のための効果的、解釈可能、およびモデルに依存しない経路を提供する。
論文 参考訳(メタデータ) (2025-10-19T10:13:34Z) - MomentSeg: Moment-Centric Sampling for Enhanced Video Pixel Understanding [40.37010049965347]
Referring Video Object (RefVOS)は、自然言語記述でガイドされたビデオにターゲットオブジェクトをセグメント化しようとする。
本稿では,時空間接地(TSG)とRefVOSを協調的に最適化し,キーモーメント接地機能を自然に組み込んだ統合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-10T11:18:21Z) - Deforming Videos to Masks: Flow Matching for Referring Video Segmentation [46.416906762916305]
FlowRVSは、RVOSを条件付き連続フロー問題として再認識する新しいフレームワークである。
我々は,映像の全体像からターゲットマスクへの直接的,言語誘導的な変形を学習することにより,タスクを再構築する。
我々の一段階の生成的アプローチは、主要なRVOSベンチマーク全体にわたって、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-10-07T17:14:10Z) - Unleashing Hierarchical Reasoning: An LLM-Driven Framework for Training-Free Referring Video Object Segmentation [17.238084264485988]
Referring Video Object (RVOS) は、言語記述に基づいて、ビデオ全体を通して関心のあるオブジェクトをセグメントすることを目的としている。
bftextPARSE-VOSは、Large Language Models (LLMs)を利用したトレーニング不要のフレームワークである。
bftextPARSE-VOSは、Ref-YouTube-VOS、Ref-DAVIS17、MeViSの3つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2025-09-06T15:46:23Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。