論文の概要: Towards Fast and Effective Long Video Understanding of Multimodal Large Language Models via Adaptive Quasi-Gaussian Sampling
- arxiv url: http://arxiv.org/abs/2606.24187v1
- Date: Tue, 23 Jun 2026 06:13:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.801837
- Title: Towards Fast and Effective Long Video Understanding of Multimodal Large Language Models via Adaptive Quasi-Gaussian Sampling
- Title(参考訳): 適応準ガウスサンプリングによるマルチモーダル大言語モデルの高速かつ効果的なビデオ理解に向けて
- Authors: Kun Zhang, Chenxin Fang, Tao Chen, Baiyang Song, Yunhang Shen, Yiyi Zhou, Rongrong Ji,
- Abstract要約: emphMultimodal Large Language Models (MLLMs) の長いビデオ理解はいまだに困難な課題である
本稿では,ビデオフレーム選択をemphQuasi-Gaussian Smplingの問題として定義し,textbfemphAdaQと呼ばれる適応的かつトレーニング不要なアプローチを提案する。
- 参考スコア(独自算出の注目度): 71.62893745623526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video understanding remains a daunting challenge for \emph{Multimodal Large Language Models} (MLLMs) due to the excessive computation and memory footprint. Thus, \emph{keyframe selection} is often adopted to mitigate this shortcoming, which however still suffers from low flexibility and high noise due to its hard sampling principle. In this paper, we define video frame selection as a problem of \emph{Quasi-Gaussian Sampling}, and propose an adaptive and training-free approach termed \textbf{\emph{AdaQ}}. Inspired by the $3$-$σ$ rule of Gaussian distribution, the objective of AdaQ is to achieve the optimal $3$-$σ$ interval for different examples, \emph{i.e.}, a smaller $3$-$σ$ interval for the local query and a larger one for the global query, thereby facilitating robust and adaptive frame sampling. To validate AdaQ, we apply it to four MLLMs with three embedding models. The extensive experimental results not only show its obvious performance gains over the default MLLMs and the SOTA keyframe selection methods, \emph{e.g.}, helping Qwen3-VL-8B outperform GPT4o by 15.8\% on average by using only 64 frames, but also confirm its superior robustness and high efficiency for long-video understanding, \emph{e.g.}, \textbf{only 1 hyper-parameter} needs to be set. \textbf{Our code project} is given at \href{https://github.com/Zkayovo-xmu/AdaQ}{https://github.com/Zkayovo-xmu/AdaQ}.
- Abstract(参考訳): 長いビデオ理解は、過剰な計算とメモリフットプリントのため、 \emph{Multimodal Large Language Models} (MLLMs) にとって大変な課題である。
したがって、この欠点を軽減するために 'emph{keyframe selection} がしばしば用いられるが、ハードサンプリングの原理により、低柔軟性と高ノイズに悩まされている。
本稿では,ビデオフレーム選択を \emph{Quasi-Gaussian Smpling} の問題として定義し,適応的かつトレーニング不要なアプローチである \textbf{\emph{AdaQ}} を提案する。
ガウス分布の3$-$σ$ルールにインスパイアされたAdaQの目的は、異なる例に対する最適な3$-$σ$インターバル、ローカルクエリに対するより小さな3$-$σ$インターバル、グローバルクエリに対するより大きい3$-$σ$インターバルを達成し、堅牢で適応的なフレームサンプリングを容易にすることである。
AdaQを3つの埋め込みモデルを持つ4つのMLLMに適用する。
大規模な実験結果は、デフォルトのMLLMとSOTAキーフレーム選択方法である \emph{e g } よりも明らかなパフォーマンス向上を示すだけでなく、Qwen3-VL-8B の GPT4o を平均 15.8 % 向上させるのに役立つだけでなく、長時間の理解のために優れた堅牢性と高い効率性、 \emph{e g } 、 \textbf{only 1 hyper-parameter} を設定する必要がある。
\textbf{Our code project} は \href{https://github.com/Zkayovo-xmu/AdaQ}{https://github.com/Zkayovo-xmu/AdaQ} で与えられる。
関連論文リスト
- GridProbe: Posterior-Probing for Adaptive Test-Time Compute in Long-Video VLMs [3.9266376632068485]
GridProbeは、効率的なトレーニング不要な後処理推論パラダイムである。
解答空間における証拠は、凍結したVLM自身の推論を用いて得られる。
疑似関連フレームを適応的に選択し、精度の損失が少なくて、準四分法的な注意コストをもたらす。
論文 参考訳(メタデータ) (2026-05-11T15:57:46Z) - One Token per Highly Selective Frame: Towards Extreme Compression for Long Video Understanding [51.08792182064565]
長いビデオ理解は、膨大なフレーム数のため、視覚言語モデル(VLM)にとって本質的に困難である。
通常、ビデオフレームは数十から数百のトークンに拡張されるため、大きな言語モデル(LLM)のコンテキスト長は制限され、VLMはフレームをわずかに知覚し、時間的情報を失う。
本稿では,XComp という長大なビデオ理解のための極端な圧縮モデルを提案する。
論文 参考訳(メタデータ) (2026-04-15T17:59:52Z) - Separating Oblivious and Adaptive Models of Variable Selection [13.61388474201292]
最適$ell_infty$誤差は、ほぼ直線時間で$gtrsim k2$サンプルで達成可能であることを示す。
本研究は,一括適応型 $ モデルの予備試験で結論付ける。
論文 参考訳(メタデータ) (2026-02-18T16:10:35Z) - Test-Time Temporal Sampling for Efficient MLLM Video Understanding [26.144261085897863]
Test-Time Temporal Sampling (T3S) は、MLLMが効率よくかつ効果的に長編ビデオを処理できるトレーニングフリーのプラグアンドプレイ推論ラッパーである。
我々の手法は推論時に完全に動作し、モデル修正や微調整は不要であり、幅広い事前訓練されたMLLMと互換性がある。
論文 参考訳(メタデータ) (2025-11-22T06:59:21Z) - LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - PEVLM: Parallel Encoding for Vision-Language Models [4.777805570120456]
我々は,視覚言語モデルのプリフィル効率を高めるために,微調整不要な並列符号化方式である textbfPEVLM を紹介する。
PEVLMは、入力ビデオを共有シンクブロックでコンテキストブロックに分割し、シーケンシャルな位置埋め込みを保持して、注意重量分布をFull-Attentionと整合させる。
実験により、PEVLMは既存の並列符号化手法を一貫して上回り、注目計算で textbf7.47x のスピードアップを達成し、 textbf40% でエンドツーエンドのレイテンシを削減した。
論文 参考訳(メタデータ) (2025-06-24T14:14:52Z) - Adaptive Keyframe Sampling for Long Video Understanding [75.7837692594814]
本稿では、適応鍵フレームサンプリング(AKS)という、単純だが効果的なアルゴリズムを提案する。
これはAdaptive Keyframe Sampling (AKS)と呼ばれるプラグインとプレイモジュールを挿入し、ビデオトークンの固定数で有用な情報を最大化することを目的としている。
2つの長いビデオ理解ベンチマークの実験は、AKSが情報的出会いを選択する際にビデオQA精度を改善することを検証する。
論文 参考訳(メタデータ) (2025-02-28T17:46:29Z) - Sign Operator for Coping with Heavy-Tailed Noise in Non-Convex Optimization: High Probability Bounds Under $(L_0, L_1)$-Smoothness [74.18546828528298]
SignSGD with Majority Votingは,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappaka ppakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappakappa -1right,Kappakappakappa-1right,Kappakappakappa-1right,Kappakappappapa-1right,Kappaを用いて,複雑性の全範囲で堅牢に動作することを示す。
論文 参考訳(メタデータ) (2025-02-11T19:54:11Z) - AMOM: Adaptive Masking over Masking for Conditional Masked Language
Model [81.55294354206923]
条件付きマスク付き言語モデル(CMLM)は最も汎用性の高いフレームワークの1つである。
本稿では,デコーダの高精細化を実現するため,マスク戦略よりもシンプルで効果的な適応マスキングを提案する。
提案モデルにより,ニューラルマシン翻訳における最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-03-13T20:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。