論文の概要: CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales
- arxiv url: http://arxiv.org/abs/2606.21949v1
- Date: Sat, 20 Jun 2026 08:37:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:42:13.956464
- Title: CapRiCorn-1K: A Comprehensive Benchmark for Video Captioning and Subject Referential Consistency Across Temporal Scales
- Title(参考訳): CapRiCorn-1K:テンポラリスケールにおけるビデオキャプションと主観的参照一貫性の総合ベンチマーク
- Authors: Xinlong Chen, Jiafu Tang, Yue Ding, Yizhuo Jia, Bozhou Li, Bohan Zeng, Yang Shi, Shihao Li, Yiyan Ji, Qiang Liu, Weihong Lin, Yuanxing Zhang, Pengfei Wan, Liang Wang, Tieniu Tan,
- Abstract要約: CapRiCorn-1Kは、ビデオキャプションの品質と、長い時間的水平線と多様なビデオ領域にわたる主観的参照整合性の両方を評価するために設計されたベンチマークである。
私たちのベンチマークでは、オーディオ視覚と視覚のみの設定の両方をサポートしています。
評価指標は, 生成されたキャプション上での下流理解および生成タスクの性能と強い相関を示す。
- 参考スコア(独自算出の注目度): 41.187897807081875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate and comprehensive video captions with consistent subject references are critical for downstream understanding and generation tasks. However, few existing benchmarks can objectively and comprehensively evaluate these properties across diverse durations and scenarios, thereby hindering the advancement of video captioning models. To bridge this gap, we propose CapRiCorn-1K, a comprehensive benchmark designed to evaluate both video captioning quality and subject referential consistency across long temporal horizons and diverse video domains. To accommodate varied evaluation needs, our benchmark supports both audiovisual and visual-only settings. Extensive experiments on CapRiCorn-1K reveal that current models generally struggle to generate accurate and comprehensive captions while maintaining consistent subject references. Moreover, as video duration increases, both the overall caption quality and subject referential consistency decline. Notably, our evaluation metrics exhibit strong correlations with the performance of downstream understanding and generation tasks conditioned on the generated captions, further validating their effectiveness. The project is available at https://github.com/xlchen0205/CapRiCorn-1K .
- Abstract(参考訳): 一貫した主題参照を持つ正確な包括的ビデオキャプションは、下流の理解と生成に不可欠である。
しかし、これらの特性を様々な期間やシナリオにわたって客観的かつ包括的に評価できる既存のベンチマークはほとんどなく、ビデオキャプションモデルの進歩を妨げる。
このギャップを埋めるために、長い時間的地平線と多様なビデオ領域にわたるビデオキャプション品質と主観的参照整合性の両方を評価するために設計された包括的なベンチマークであるCapRiCorn-1Kを提案する。
様々な評価ニーズに対応するため、我々のベンチマークでは、オーディオ視覚と視覚のみの設定の両方をサポートしている。
CapRiCorn-1Kの大規模な実験により、現在のモデルでは、一貫した主題参照を維持しながら、正確で包括的なキャプションの生成に苦慮していることが明らかとなった。
さらにビデオの長さが長くなるにつれて、全体のキャプション品質と主観的参照一貫性が低下する。
特に,評価指標は,生成されたキャプションに条件付き下流理解および生成タスクの性能と強い相関関係を示し,その効果を検証した。
このプロジェクトはhttps://github.com/xlchen0205/CapRiCorn-1Kで入手できる。
関連論文リスト
- Advancing Reference-free Evaluation of Video Captions with Factual Analysis [11.012178413572066]
本稿では,レファレンスフリーかつ事実的根拠のない新しいキャプション品質評価器であるVC-Inspectorを紹介する。
提案手法は,VATEX-Evalデータセット上での人間の判断に優れた整合性を示し,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-20T05:04:41Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation [23.701884816475403]
ビデオキャプションは、テキストからビデオへの生成タスクにおいて重要な役割を果たす。
既存のベンチマークでは、きめ細かい評価が不十分である。
細粒度ビデオキャプション評価ベンチマーク(VCapsBench)を紹介する。
論文 参考訳(メタデータ) (2025-05-29T14:34:25Z) - CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness [30.44039177018447]
CAPabilityは、6つの重要なビューにまたがる12次元にわたる視覚的キャプションを評価するための総合的なベンチマークである。
我々は、生成したキャプションを評価するために、視覚要素アノテーションで1万1千近い人注画像や動画をキュレートした。
論文 参考訳(メタデータ) (2025-02-19T07:55:51Z) - Temporal Inconsistency Guidance for Super-resolution Video Quality Assessment [63.811519474030234]
本稿では,フレームの時間的矛盾を定量化するための知覚指向アプローチを提案する。
人間の視覚システムに触発され,不整合誘導時間モジュールを開発した。
我々の手法は最先端のVQA手法よりも優れています。
論文 参考訳(メタデータ) (2024-12-25T15:43:41Z) - NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative [19.79736018383692]
既存のビデオキャプションベンチマークとモデルは因果的物語を欠いている。
この物語の欠如は、ビデオコンテンツに固有の因果的・時間的ダイナミクスをキャプチャするテキスト記述を生成するモデルの能力を制限する。
本研究では,(1)大規模言語モデルと少数ショットプロンプトを用いて生成された新規な因果的ナラティブ(CTN)キャプションベンチマークと,(2)原因と影響のダイナミクスを捉えるための別エンコーダを備えた因果効果ネットワーク(CEN)とからなるアプローチであるナラティブブリッジを提案する。
論文 参考訳(メタデータ) (2024-06-10T17:34:24Z) - Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering [73.11017833431313]
マルチモーダルなビデオ質問応答は、正しい回答を予測し、その質問に関連する時間的境界をローカライズすることを目的としている。
我々は、QAアノテーションのみを使用する、弱い教師付き質問基盤(WSQG)の設定を考案する。
フレームと字幕の対応をフレーム字幕(FS)に変換し,時間的注意スコアの最適化を支援する。
論文 参考訳(メタデータ) (2022-09-08T07:20:51Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。