論文の概要: AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression
- arxiv url: http://arxiv.org/abs/2606.24286v1
- Date: Tue, 23 Jun 2026 08:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.848558
- Title: AVOC: Enhancing Hour-Level Audio-Video Understanding in Omni-Modal LLMs via Retrieval-Inspired Token Compression
- Title(参考訳): AVOC: 検索型トーケン圧縮によるOmni-Modal LLMにおける時間レベルオーディオ映像理解の強化
- Authors: Yijing Chen, Wenhui Tan, Xiaoyi Yu, Yuyue Wang, Xin Cheng, Kaisi Guan, Hao Jiang, Xiangyang Li, Guojie Zhu, Ruihua Song,
- Abstract要約: AVOCは、Omni-modal Large Language Modelsにおける長文音声ビデオ理解のためのフレームワークである。
AVOCは、ロングフォームオーディオビデオベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 22.818321106501788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models have achieved remarkable progress in short-form audio-video understanding, yet long-form audio-video comprehension remains challenged by limited context windows and severe information redundancy. To address these bottlenecks, we propose AVOC, a framework for long-form audio-video understanding in Omni-modal Large Language Models. AVOC introduces a learnable token compression module between the modality encoders and the LLM backbone. We reframe multimodal token compression as a top-$K$ retrieval problem: given a fixed context budget, the module must retrieve a compact subset of tokens that best supports answering the user query. We draw inspiration from three classical Information Retrieval criteria for selecting informative units from a large candidate pool: relevance, importance, and diversity. AVOC instantiates each criterion as a tailored mechanism for audio-video understanding, and integrates them into a unified retrieval-style compression pipeline. Experiments show that AVOC achieves state-of-the-art performance on long-form audio-video benchmarks, surpassing the second-best model by 4.9 and 5.5 points in average accuracy on OmniVideoBench and LVOmniBench, respectively. Moreover, AVOC maintains robust performance on Audio-Video Needle-in-a-Haystack task at durations up to one hour.
- Abstract(参考訳): マルチモーダル大規模言語モデルは,短時間の音声・ビデオ理解において顕著な進歩を遂げている。
これらのボトルネックに対処するために,Omni-modal Large Language Models における長文音声・ビデオ理解のためのフレームワーク AVOC を提案する。
AVOCは、モダリティエンコーダとLLMバックボーンの間に学習可能なトークン圧縮モジュールを導入する。
私たちは、マルチモーダルトークンの圧縮をトップ$Kの検索問題として再設定しました: 固定されたコンテキスト予算が与えられたら、モジュールは、ユーザクエリの応答を最もサポートしているトークンのコンパクトなサブセットを検索する必要があります。
我々は,大規模候補プールから情報単位を選択するための3つの古典的情報検索基準(関連性,重要性,多様性)からインスピレーションを得た。
AVOCは、オーディオビデオ理解のための調整されたメカニズムとして各基準をインスタンス化し、それらを統合された検索スタイルの圧縮パイプラインに統合する。
AVOCは,OmniVideoBenchとLVOmniBenchの平均精度を4.9ポイント,5.5ポイント上回る長大なオーディオビデオベンチマークで,最先端のパフォーマンスを実現している。
さらに、AVOCは最大1時間までのAudio-Video Needle-in-a-Haystackタスクの堅牢なパフォーマンスを維持している。
関連論文リスト
- LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs [68.35684758116453]
このデータセットは、リッチなオーディオ視覚ダイナミクスを備えたオープンプラットフォームからソースされた高品質なビデオで構成されている。
我々は,長期記憶,時間的局所化,きめ細かい理解,マルチモーダル知覚など,ドメイン間のOmniLLMの能力について精査した。
オープンソースモデルは一般的に35%未満の精度を達成するが、Gemini 3 Proは65%のピーク精度に達する。
論文 参考訳(メタデータ) (2026-03-19T17:58:13Z) - AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
大規模言語モデル(LLM)の最近の進歩は、音声認識において、AVSR(Audio-Visual Speech Recognition)を含む強力な性能を示している。
そこで我々は,AVSRのための最初のMateryoshkaベースのマルチモーダルLLMであるLlama-MTSKを提案する。
Matryoshka Representation Learningにインスパイアされた私たちのモデルは、単一のアーキテクチャで複数の粒度の表現をエンコードします。
効率的な微調整を行うため,グローバルおよびスケール固有のモジュールを用いたLoRAベースの戦略を3つ導入する。
論文 参考訳(メタデータ) (2025-03-09T00:02:10Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - SAVEn-Vid: Synergistic Audio-Visual Integration for Enhanced Understanding in Long Video Context [19.224601064352846]
SAVEn-Vidは,58k以上の音声・視覚的指示を含む,史上初の音声・視覚的ビデオデータセットである。
AVBenchは、ロングビデオ内の音声・視覚的理解タスクの強化に関するモデルを評価するためにデザインされた2500QAを含むベンチマークである。
実験により、SAVEnVideoは、ゼロショット長ビデオタスク(Video-MME)で3.61%、ゼロショット長ビデオタスク(Music-AVQA)で1.29%、最上位のオーディオ・ヴィジュアル・タスク(Music-AVQA)で1.29%を上回った。
論文 参考訳(メタデータ) (2024-11-25T09:22:13Z) - Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities [67.89368528234394]
マルチモーダル学習の主な課題の1つは、異質なモダリティを組み合わせる必要があることである。
ビデオとオーディオはテキストよりもはるかに高いレートで取得され、ほぼ時間内に整列される。
我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。
論文 参考訳(メタデータ) (2023-11-09T19:15:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。