論文の概要: Keep It in Mind: User Centric Continual Spatial Intelligence Reasoning in Egocentric Video Streams
- arxiv url: http://arxiv.org/abs/2606.15200v1
- Date: Sat, 13 Jun 2026 08:50:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.050714
- Title: Keep It in Mind: User Centric Continual Spatial Intelligence Reasoning in Egocentric Video Streams
- Title(参考訳): 心に留めておく:エゴセントリックなビデオストリームにおけるユーザー中心の連続的空間的知性推論
- Authors: Yun Wang, Junbin Xiao, Han Lyu, Yifan Wang, Jing Zuo, Zhanjie Zhang, Hong Huang, Dapeng Wu, Angela Yao,
- Abstract要約: UCS-ベンチ (UCS-Bench) は、170時間以上のエゴセントリックな視覚観察と8.1K以上のタイムスタンプの質問のデータセットである。
我々は、ストリーミングエゴセントリックな観測から構造化空間記憶をインクリメンタルに構築し、維持するフレームワークであるDirectMeを提案する。
- 参考スコア(独自算出の注目度): 58.77207336324662
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce UCS-Bench, a dataset spanning 170+ hours of egocentric visual observations with 8.1K+ timestamped questions for diagnosing User-Centric Continual Spatial intelligence in egocentric video streams. UCS-Bench targets a new problem that emphasizes dynamic spatial reasoning, long-term memory, and their alignment with users' real-time locations. We propose DirectMe, a framework that incrementally constructs and maintains a structured spatial memory from streaming egocentric observations. DirectMe enables robust tracking and recall of object locations, all relative to the user's movement over time. By tightly coupling visual perception with memory updates and spatial reasoning, our approach supports long-horizon queries that require recalling interactions, resolving viewpoint-induced ambiguities, and adapting to dynamic scenes. Our experiments show that DirectMe significantly improves the spatial reasoning of leading multimodal LLMs; it also surpasses many spatially aware and long-form streaming video models. We hope our benchmark and solution will advance spatial intelligence research for egocentric AI assistants. Data and code are available at https://github.com/cocowy1/UCS-Bench.
- Abstract(参考訳): UCS-Benchは170時間以上のエゴセントリックな視覚的観察のデータセットで、8.1K以上のタイムスタンプで、エゴセントリックなビデオストリームでユーザ中心の空間的知能を診断する。
UCS-Benchは、動的な空間推論、長期記憶、ユーザのリアルタイムロケーションとの整合性を強調する新しい問題をターゲットにしている。
我々は、ストリーミングエゴセントリックな観測から構造化空間記憶をインクリメンタルに構築し、維持するフレームワークであるDirectMeを提案する。
DirectMeは、オブジェクト位置の堅牢な追跡とリコールを可能にする。
記憶の更新や空間的推論と視覚知覚を密結合させることで、リコール操作、視点によるあいまいさの解消、動的シーンへの適応といった長軸クエリをサポートする。
実験の結果,DirectMeは先行するマルチモーダルLLMの空間的推論を大幅に改善し,空間的認識と長大なストリーミングビデオモデルを上回る結果となった。
われわれのベンチマークとソリューションは、エゴセントリックなAIアシスタントのための空間知能研究を前進させることを期待している。
データとコードはhttps://github.com/cocowy1/UCS-Bench.comで入手できる。
関連論文リスト
- EGOSTREAM: A Diagnostic Benchmark for Streaming Episodic Memory in Egocentric Vision [9.701124246177661]
連続エピソードメモリは自律エージェントのコア機能である。
Egostreamは、egocentric Visionにおけるエピソードメモリ評価の診断ベンチマークである。
論文 参考訳(メタデータ) (2026-05-29T17:20:10Z) - AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents [49.63422082885992]
長軸対話エージェントのための適応型ユーザ中心メモリフレームワークであるAdaMemを提案する。
AdaMemは対話履歴をワーキング、エピソディック、ペルソナ、グラフメモリに整理する。
LoCoMo と PERSONAMEM ベンチマーク上での AdaMem の評価を行った。
論文 参考訳(メタデータ) (2026-03-17T13:22:54Z) - Spatial-TTT: Streaming Visual-based Spatial Intelligence with Test-Time Training [61.6942259866261]
我々は、テストタイムトレーニング(TTT)を用いた視覚的空間知能のストリーミングに向けた空間TTTを提案する。
我々はハイブリッドアーキテクチャを設計し、スライディング・ウインドウ・アテンションと平行に大きな時間的更新を適用し、効率的な空間ビデオ処理を行う。
実験により,空間TTTは時間軸空間理解を向上し,映像空間ベンチマークにおける最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2026-03-12T17:58:58Z) - Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos [51.8995932557911]
EgoTempoは、エゴセントリックドメインにおける時間的理解を評価するために設計されたデータセットである。
本稿では,ベンチマークにおける最先端のマルチモーダル言語モデル (MLLM) が,テキストやフレームのみを入力として,驚くほど高い性能を実現していることを示す。
EgoTempoがこの分野の新たな研究を触媒し、時間的ダイナミクスの複雑さをよりよく捉えたモデルに刺激を与えることを期待している。
論文 参考訳(メタデータ) (2025-03-17T18:50:36Z) - EgoTracks: A Long-term Egocentric Visual Object Tracking Dataset [19.496721051685135]
身体追跡は多くの自我中心の視覚問題にとって重要な要素である。
EgoTracksは、長期的なエゴセントリックなビジュアルオブジェクトトラッキングのための新しいデータセットである。
本稿では,STARKトラッカーの性能向上を図り,エゴセントリックデータの性能向上を図っている。
論文 参考訳(メタデータ) (2023-01-09T09:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。