Fugu-MT 論文翻訳(概要): ViTexQA: A Multi-Frame Temporal Perception Dataset for Video Text Question Answering

論文の概要: ViTexQA: A Multi-Frame Temporal Perception Dataset for Video Text Question Answering

arxiv url: http://arxiv.org/abs/2606.24602v1
Date: Tue, 23 Jun 2026 14:03:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.995605
Title: ViTexQA: A Multi-Frame Temporal Perception Dataset for Video Text Question Answering
Title（参考訳）: ViTexQA:ビデオテキスト質問応答のための多フレーム時間知覚データセット
Authors: Zhentao Guo, Chen Duan, Tongkun Guan, Zining Wang, Kai Zhou, Pengfei Yan,
Abstract要約: 大規模なビデオテキストQAデータセットであるViTexQAと、堅牢なマルチフレーム時間的推論のためのFrameThinkerを提示する。提案手法は, ROUGE-Lを6.3%引き上げ, ViTexQAのSOTAベースラインより優れていることを示す。
参考スコア（独自算出の注目度）: 20.103744443188372
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite remarkable progress in multimodal understanding, current MLLMs still exhibit limitations in video text understanding, particularly when semantics emerge through the integration of temporally distributed textual cues across multiple frames. This perception challenge fundamentally differs from static image text understanding, yet existing datasets fail to capture: the vast majority of questions remain answerable from single frames, inadequately reflecting real-world video text comprehension demands. To address this, we present ViTexQA, a large-scale video-text QA dataset, and FrameThinker for robust multi-frame temporal reasoning. We build ViTexQA via a quality-controlled Chain-of-Thought (CoT) annotation pipeline boosted with temporal constraints; all its QA pairs demand cross-frame text fusion to solve, enforcing true temporal reliance. FrameThinker adopts two-stage training for explicit temporal modeling: CoT-Guided Supervised Fine-Tuning (SFT) generates frame-aware reasoning chains, followed by Temporally-grounded Reinforcement Learning (RL) optimized with multi-frame coherence rewards. Evaluations show our method outperforms SOTA baselines on ViTexQA, lifting ROUGE-L by 6.3%.
Abstract（参考訳）: マルチモーダル理解の顕著な進歩にもかかわらず、現在のMLLMはビデオテキスト理解に制限を課している。この認識課題は、静的な画像テキスト理解とは根本的に異なるが、既存のデータセットはキャプチャーに失敗している。これを解決するために、大規模なビデオテキストQAデータセットViTexQAと、堅牢なマルチフレーム時間的推論のためのFrameThinkerを提案する。私たちは、品質管理されたChain-of-Thought(CoT)アノテーションパイプラインを通じてViTexQAを構築する。 CoT-Guided Supervised Fine-Tuning (SFT) はフレーム認識推論チェーンを生成し、その後、多フレームコヒーレンス報酬に最適化されたテンポラリグラウンド強化学習 (RL) を生成する。提案手法は, ROUGE-Lを6.3%引き上げ, ViTexQAのSOTAベースラインを上回った。

関連論文リスト

ViKey: Enhancing Temporal Understanding in Videos via Visual Prompting [17.594941754364484]
Video Large Language Models (VideoLLMs) は多様なマルチモーダルビデオタスクで高いパフォーマンスを実現している。高精細ビデオフレーム処理の計算コストを低減するため,フレーム選択などの効率指向手法が広く採用されている。本稿では、VPとKFM(Keyword-Frame Mapping)モジュールを組み合わせたトレーニングフリーフレームワークであるViKeyを紹介する。
論文参考訳（メタデータ） (2026-03-24T13:32:52Z)
TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding [14.570869250170139]
TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
論文参考訳（メタデータ） (2025-12-29T14:10:22Z)
LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文参考訳（メタデータ） (2025-07-17T09:46:43Z)
STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection [61.54044967253421]
空間的詳細と時間的コヒーレンスを保持するビデオQAペアを特徴とする,新しいデータセットであるVideoEspressoを紹介する。 GPT-4o を用いた QA ペア生成にあたり, 冗長性を抑えるためにセマンティック・アウェア法を用いて構成パイプラインを構築した。フレームセレクタと2段階の命令微調整推論LVLMを備えたハイブリッドLVLM協調フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-22T08:33:36Z)
FancyVideo: Towards Dynamic and Consistent Video Generation via Cross-frame Textual Guidance [3.6519202494141125]
我々は、既存のテキスト制御機構を改善する革新的なビデオジェネレータであるFancyVideoを紹介した。 CTGMは、TII(Temporal Information)とTAR(Temporal Affinity Refiner)をクロスアテンションの開始と終了に組み込んでいる。提案手法は,EvalCrafterベンチマークを用いて,最先端のT2V生成結果を実現する。
論文参考訳（メタデータ） (2024-08-15T14:47:44Z)
Capturing Co-existing Distortions in User-Generated Content for No-reference Video Quality Assessment [9.883856205077022]
ビデオ品質アセスメント(VQA)は、ビデオの知覚品質を予測することを目的としている。 VQAはユーザ生成コンテンツ(UGC)ビデオで未解決の2つの過小評価課題に直面している。品質関連スパース特徴をより効率的に抽出するためのtextitVisual Quality Transformer (VQT) を提案する。
論文参考訳（メタデータ） (2023-07-31T16:29:29Z)
SViTT: Temporal Learning of Sparse Video-Text Transformers [65.93031164906812]
SViTTは,多フレーム推論が可能な疎ビデオテキストアーキテクチャであり,注目度の高い単純変換器よりもはるかに低コストである。 SViTTは、自己注意におけるトークン間のクエリキー通信を制限するエッジ空間と、非形式的視覚トークンを破棄する空間の2つの形式を採用している。
論文参考訳（メタデータ） (2023-04-18T08:17:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。