論文の概要: Compression and Retrieval: Implicit Memory Retrieval for Video World Models
- arxiv url: http://arxiv.org/abs/2606.23105v1
- Date: Mon, 22 Jun 2026 09:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:07:53.977816
- Title: Compression and Retrieval: Implicit Memory Retrieval for Video World Models
- Title(参考訳): 圧縮と検索:ビデオワールドモデルのための暗黙の記憶検索
- Authors: Zhan Peng, Jie Ma, Huiqiang Sun, Chong Gao, Zhijie Xue, Zhiyu Pan, Zhiguo Cao, Jun Liang, Jing Li,
- Abstract要約: 本稿では,これらの制限を克服するための注意駆動型暗黙記憶検索機構を提案する。
位置エンコーディングにより視点情報を注入することにより,注意によるフレキシブルなメモリ検索を行う。
我々は,現実的なカメラ軌跡とフレームレベルのアノテーションを特徴とする大規模合成データセットであるSceneFlyを構築した。
- 参考スコア(独自算出の注目度): 34.79847750545674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video world models hold promise for simulating interactive environments, yet maintaining consistent long-term memory across complex camera trajectories remains a critical challenge. Existing methods typically rely on computationally expensive context scaling or rigid heuristic retrieval mechanisms, which lacks generalization to varying camera trajectories and environments. In this paper, we propose Compression and Retrieval (CaR), an attention-driven implicit memory retrieval mechanism to overcome these limitations. By injecting viewpoint information via positional encoding, our method performs flexible memory retrieval through attention computation. To efficiently process extended contexts with minimal computational overhead, we further introduce a lightweight context compression network. Furthermore, we construct SceneFly, a large-scale synthetic dataset featuring realistic camera trajectories and frame-level annotations to train and evaluate long-horizon video world models. Extensive experiments demonstrate that our approach achieves state-of-the-art results on established benchmarks and exhibits strong generalization to open-domain scenes.
- Abstract(参考訳): ビデオワールドモデルは、インタラクティブな環境をシミュレートする約束を持っているが、複雑なカメラ軌跡をまたいで一貫した長期記憶を維持することは、依然として重要な課題である。
既存の手法は通常、計算コストのかかるコンテキストスケーリングや厳密なヒューリスティック検索機構に依存しており、様々なカメラの軌跡や環境への一般化を欠いている。
本稿では,これらの制限を克服するための注意駆動型暗黙記憶検索機構である圧縮・検索機構(CaR)を提案する。
位置エンコーディングにより視点情報を注入することにより,アテンション計算によるフレキシブルなメモリ検索を行う。
さらに,計算オーバーヘッドを最小限に抑えた拡張コンテキストを効率的に処理するために,軽量なコンテキスト圧縮ネットワークを導入する。
さらに,現実的なカメラトラジェクトリとフレームレベルのアノテーションを特徴とする大規模合成データセットであるSceneFlyを構築し,長距離ビデオワールドモデルのトレーニングと評価を行う。
大規模な実験により,提案手法は確立されたベンチマークの最先端結果を実現し,オープンドメインシーンへの強力な一般化を示す。
関連論文リスト
- UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models [54.564740558030245]
UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
論文 参考訳(メタデータ) (2026-02-26T12:54:46Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - Memorize-and-Generate: Towards Long-Term Consistency in Real-Time Video Generation [33.32047364623734]
Memorize-and-Generate(MAG)は、メモリ圧縮とフレーム生成を別々のタスクに分離するフレームワークである。
我々は、記憶モデルを訓練して、履歴情報をコンパクトなKVキャッシュに圧縮し、この圧縮された表現を用いて、後続のフレームを合成する別個のジェネレータモデルを訓練する。
実験により、MAGは標準的なビデオ生成ベンチマーク上での競争性能を維持しながら、優れた歴史的一貫性を実現することが示された。
論文 参考訳(メタデータ) (2025-12-21T14:02:53Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。