論文の概要: How Well Can Your Video Model Remember? Measuring Memory-Budget Trade-offs in Long Video Understanding
- arxiv url: http://arxiv.org/abs/2606.20726v1
- Date: Wed, 17 Jun 2026 03:30:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 13:30:50.695602
- Title: How Well Can Your Video Model Remember? Measuring Memory-Budget Trade-offs in Long Video Understanding
- Title(参考訳): ビデオモデルってどんな感じ? 長いビデオ理解でメモリ消費のトレードオフを計測する
- Authors: Yixian Tian,
- Abstract要約: 本稿では,長時間ビデオ理解におけるフレーム予算Bと時間距離Dの関数として,解答精度がいかに低下するかを定量化する,コンパクトな経験モデルを提案する。
ロングフォームモデルは厳格な予算の下で運用されるが、Bが縮小しイベントが後退するにつれて精度が低下すると予想する事前のフレームワークは存在しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a compact empirical model that quantifies how answer accuracy degrades as a function of frame budget B and temporal distance D in long video understanding -- analyzing performance when recalling content from D seconds in the past using a fraction B of total frames. Long-form models operate under strict budgets, yet no prior framework predicts how accuracy degrades as B shrinks and events recede. We fit a weighted least-squares model on ~155,000 binary predictions across ten models and three sampling strategies, deriving a law where logit-accuracy scales linearly in log-budget with a distance-dependent exponent that decays log-linearly with distance. This budget exponent α(D) captures the marginal value of extra frames at distance D. The law achieves cell-level weighted R^2 = 0.05-0.75 across models. Notably, budget effectiveness at D = 1000 s differs by \approx 7.4\times between the best streaming and base models. STREAMINGVLM achieves α(1000) = 1.26 (95% CI: [1.06, 1.58]), meaning a tenfold budget increase substantially improves long-distance accuracy, while the best Qwen3-VL base model reaches only α(1000) = 0.17 (CI: [0.04, 0.34]). In accuracy space, a 10\times budget increase at D = 1000 s yields +29 percentage points for STREAMINGVLM versus +4 pp for the base model. Sampling strategies show model-dependent trade-offs: random sampling yields higher base sensitivity but steeper distance decay. We demonstrate how α(D) enables principled budget allocation, including a model-ranking reversal at long distance, and propose it as a diagnostic metric for streaming video models.
- Abstract(参考訳): 本稿では,フレーム予算Bと時間距離Dの関数として解答精度がいかに低下するかを,フレーム全体の分数Bを用いて,過去のD秒からのコンテンツリコール時の性能を定量的に分析する実験モデルを提案する。
ロングフォームモデルは厳格な予算の下で運用されるが、Bが縮小しイベントが後退するにつれて精度が低下すると予想する事前のフレームワークは存在しない。
重み付き最小二乗モデルを10つのモデルと3つのサンプリング戦略で155,000のバイナリ予測に適用し、対数精度が対数予算で線形にスケールする法則と距離依存指数で対数直線的に崩壊する距離依存指数を導出する。
この予算指数 α(D) は距離 D で余剰フレームの限界値を取得する。この法則はセルレベル重み付き R^2 = 0.05-0.75 をモデル全体で達成する。
特に、D = 1000秒の予算効果は、最良のストリーミングモデルとベースモデルの間では、 \approx 7.4\times によって異なる。
STREAMINGVLM は α(1000) = 1.26 (95% CI: [1.06, 1.58]) を達成し、10倍の予算増により長距離精度が大幅に向上し、最高の Qwen3-VL ベースモデルは α(1000) = 0.17 (CI: [0.04, 0.34]) となる。
精度空間では、D = 1000 sでの10\timesの予算増加は、STREAMINGVLMでは+29ポイント、ベースモデルでは+4ppポイントとなる。
サンプリング戦略はモデルに依存したトレードオフを示す: ランダムサンプリングはより高いベース感度を得るが、より急な距離減衰をもたらす。
本稿では, 遠距離でのモデルレベルの逆転を含む, α(D) が基本予算配分を実現する方法を示し, ストリーミングビデオモデルの診断基準として提案する。
関連論文リスト
- q0: Primitives for Hyper-Epoch Pretraining [0.5980755233352995]
単一のモデルの事前訓練は、計算予算が枯渇するずっと前に、数パス以内に飽和する。
ハイパーエポック事前学習(q0)を導入し,マルチエポック予算を多種多様なモデルに転換する。
我々は,q0が56エポック(4.6倍)または67エポック(3.8倍)の強い256エポックアンサンブルベースラインと一致することを示す。
論文 参考訳(メタデータ) (2026-06-02T17:27:48Z) - Zoom Consistency: A Free Confidence Signal in Multi-Step Visual Grounding Pipelines [0.880899367147235]
マルチステップズームインパイプラインはGUIグラウンディングに広く利用されている。
中間出力は、無償で有用な信頼信号: ズーム一貫性を含む。
理想化条件下でのステップ1空間誤差の線形推定器であることを示す。
論文 参考訳(メタデータ) (2026-04-15T20:47:08Z) - RedunCut: Measurement-Driven Sampling and Accuracy Performance Modeling for Low-Cost Live Video Analytics [30.27628949620967]
ライブビデオ分析(LVA)は、大規模なカメラ群にわたって継続的に実行されるが、現代のビジョンモデルによる推論コストは高いままである。
これを解決するために、動的モデルサイズ選択(DMSS)は魅力的なアプローチである。
サンプリングの費用対効果のトレードオフを推定する計測駆動プランナと、精度予測を改善するために軽量でデータ駆動のパフォーマンスモデルを用いています。
論文 参考訳(メタデータ) (2025-12-30T18:01:17Z) - LOVE-R1: Advancing Long Video Understanding with an Adaptive Zoom-in Mechanism via Multi-Step Reasoning [73.90466023069125]
ビデオクリップに適応的にズームイン可能なモデルであるLOVE-R1を提案する。
モデルはまず、密度の高いサンプルフレームが提供されるが、小さな解像度で提供される。
空間的詳細が必要な場合、大きなフレーム解像度で興味のあるクリップを拡大することができる。
論文 参考訳(メタデータ) (2025-09-29T13:43:55Z) - Efficient Continuous Video Flow Model for Video Prediction [43.16308241800144]
拡散や修正フローモデルなどの多段階予測モデルでは、単一ステップ法と比較して新しいフレームをサンプリングする際のレイテンシが高くなる。
本稿では,遅延制約を緩和し,映像予測タスクへのこれらのプロセスの適応を容易にすることを目的とした,多段階プロセスのモデリング手法を提案する。
論文 参考訳(メタデータ) (2024-12-07T12:11:25Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Recurrence without Recurrence: Stable Video Landmark Detection with Deep
Equilibrium Models [96.76758318732308]
本稿では,最近提案されたDeep Equilibrium Model (DEQ) が,この計算形式に自然に適応可能であることを示す。
我々のLandmark DEQ(LDEQ)は、WFLW顔ランドマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-02T19:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。