論文の概要: OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
- arxiv url: http://arxiv.org/abs/2606.07577v1
- Date: Tue, 26 May 2026 19:12:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.740252
- Title: OmniMem: Perturbation-aware Memory Compression for Streaming Audio-Visual LLMs
- Title(参考訳): OmniMem: ストリーミングオーディオ・ビジュアルLLMのための摂動認識メモリ圧縮
- Authors: Guangzhi Sun, Yixuan Li, Yudong Yang, Chao Zhang,
- Abstract要約: 我々は,音声視覚大言語モデル(LLM)のためのメモリ効率の高いストリーミングフレームワークであるOmniMemを紹介する。
すべてのトークンを均一に扱う既存の圧縮方法とは異なり、OmniMemはメモリ割り当て戦略を導入している。
OmniMemは、トレーニングなしの強力な圧縮ベースラインを、同じメモリ予算で2~4%の精度で継続的に改善することを示す。
- 参考スコア(独自算出の注目度): 30.52254659395564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-visual large language models (LLMs) hold strong promise for long-form video understanding, yet their long-video inference is fundamentally limited by the linear growth of video tokens and key-value (KV) caches. We present OmniMem, a memory-efficient streaming framework designed specifically for audio-visual LLMs. Unlike existing compression methods that treat all tokens uniformly, OmniMem introduces a modality-aware memory allocation strategy that separately manages visual and audio contexts, addressing the severe token imbalance between the two modalities. OmniMem further preserves informative and non-redundant KV states through perturbation-aware memory selection, enabling compact memory without sacrificing long-range understanding. To strengthen compression under realistic deployment constraints, we also explore budget-aware fine-tuning, which encourages the model to consolidate useful information into retained memory. Experiments on VideoMME Long, LVBench, and LVOmniBench with video-SALMONN 2+ and Qwen-2.5-Omni show that OmniMem consistently improves over strong training-free compression baselines by 2-4% absolute accuracy under the same memory budgets, with an additional 1-2% gain after fine-tuning.
- Abstract(参考訳): 音声視覚大言語モデル(LLM)は、長大なビデオ理解を強く約束するが、ビデオトークンとキー値(KV)キャッシュの線形成長により、その長大な推論は基本的に制限される。
我々はOmniMemについて紹介する。OmniMemは、オーディオ・ビジュアルLLM用に特別に設計されたメモリ効率の高いストリーミングフレームワークである。
すべてのトークンを均一に扱う既存の圧縮方法とは異なり、OmniMemは2つのモダリティ間の深刻なトークンの不均衡に対処し、視覚とオーディオのコンテキストを別々に管理するモダリティ対応メモリ割り当て戦略を導入している。
OmniMemはさらに、摂動を意識したメモリ選択を通じて、情報的および非冗長なKV状態を保存し、長距離理解を犠牲にすることなく、コンパクトなメモリを可能にする。
また,現実的な展開制約下での圧縮を強化するために,モデルが有用な情報を保持メモリに集約することを奨励する,予算対応の微調整についても検討する。
VideoMME Long, LVBench, LVOmniBench with video-SALMONN 2+ and Qwen-2.5-Omniの実験では、OmniMemはトレーニングなしの強力な圧縮ベースラインを、同じメモリ予算の下で2-4%精度で改善し、微調整後にさらに1-2%のゲインを達成している。
関連論文リスト
- MemoryCard: Topic-Aware Multi-Modal Clue Compression for Long-Video Question Answering [54.54526361917178]
MemoryCardは長いビデオを自己完結型メモリカードに整理する。
その結果、MemoryCardは、同等の視覚的な予算の下で、長時間ビデオのQAパフォーマンスを継続的に改善することを示した。
論文 参考訳(メタデータ) (2026-06-04T09:23:31Z) - O-MARC: Omni Memory-Augmented Compression Distillation for Efficient Video Understanding [16.003413095973784]
我々は,高精細な視覚記憶と時間的接地されたオーディオアンカーを保存できる,訓練用フリープラグ・イン・圧縮法であるOMACを紹介する。
メモリ圧縮マルチモーダルコンテキストで学習するための圧縮蒸留フレームワークであるO-MARCについても紹介する。
Qwen2.5-Omni-3Bでは、O-MARCは4つのベンチマークの平均スコアを45.8に改善し、44.1とOmniZipを41.0で上回った。
論文 参考訳(メタデータ) (2026-05-26T06:07:11Z) - OmniRefine: Alignment-Aware Cooperative Compression for Efficient Omnimodal Large Language Models [14.355322423471018]
我々は,Omni-LLMにおける効率的な音声・視覚トークン圧縮のためのトレーニングフリー2段階フレームワークを提案する。
第一に、対応保存チャンクリファインメントは、ネイティブチャンク境界をクロスモーダルな圧縮ユニットに洗練する。
第二に、Modality-Aware Cooperative Compressionは、各改良されたユニット内のビデオトークンとオーディオトークンを共同で圧縮し、重要な証拠を保持しながら冗長性を低下させる。
論文 参考訳(メタデータ) (2026-05-12T12:42:44Z) - Semantic-Aware Adaptive Visual Memory for Streaming Video Understanding [55.7992006853979]
SAVEMemは、セマンティックな認識をメモリ生成にもたらすフレームワークで、クエリ毎に検索スコープを適応させる。
SAVEMemは、メモリ生成にセマンティックな認識をもたらし、クエリ毎に検索範囲を適応させる、トレーニングフリーのデュアルステージフレームワークである。
論文 参考訳(メタデータ) (2026-05-08T15:40:40Z) - FreshMem: Brain-Inspired Frequency-Space Hybrid Memory for Streaming Video Understanding [16.693006630166316]
本稿では,脳の対数知覚とメモリ統合にインスパイアされた周波数空間ハイブリッドメモリネットワークであるFreshMemを提案する。
FreshMemは2つの相乗的加群を通して長期コヒーレンスで短期忠実度を調整する。
実験の結果、FreshMemはQwen2-VLベースラインを大幅に向上させ、StreamingBench、OV-Bench、OVO-Benchでそれぞれ5.20%、4.52%、および2.34%の上昇を示した。
論文 参考訳(メタデータ) (2026-02-02T05:52:11Z) - HERMES: KV Cache as Hierarchical Memory for Efficient Streaming Video Understanding [92.59317281526239]
HERMESは、ビデオストリームのリアルタイムかつ正確な理解のためのトレーニング不要アーキテクチャである。
HermesはコンパクトなKVキャッシュを再利用し、リソース制約下で効率的なストリーミング理解を可能にする。
Hermesはすべてのベンチマークで優れた精度または同等の精度を実現しており、ストリーミングデータセットでは最大11.4%向上している。
論文 参考訳(メタデータ) (2026-01-21T07:26:15Z) - video-SALMONN S: Streaming Audio-Visual LLMs Beyond Length Limits via Memory [51.03819128505358]
Video-SALMONN Sは、まず1FPSと360p解像度で3時間ビデオを処理する。
テストタイムトレーニングメモリモジュールは、トークン表現を継続的に更新して、長距離依存関係をキャプチャする。
プロンプト依存メモリリーダは、固定サイズメモリからコンテキスト関連コンテンツを検索する。
論文 参考訳(メタデータ) (2025-10-13T08:20:15Z) - METok: Multi-Stage Event-based Token Compression for Efficient Long Video Understanding [55.38256656122857]
トレーニング不要なマルチステージイベントベースのToken圧縮フレームワークであるMETokを提案する。
我々はMETokが情報的視覚トークンを動的に選択することで効率と精度の最適なトレードオフを実現することを示す。
例えば、LongVA-7BをMETokに装備すると、80.6%のFLOPが削減され、93.5%のKVキャッシュメモリが節約される。
論文 参考訳(メタデータ) (2025-06-03T13:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。