Fugu-MT 論文翻訳(概要): Towards Accurate Emotion-Attributed Video Captioning via Fine-grained Emotion-Cause Pair Extraction

論文の概要: Towards Accurate Emotion-Attributed Video Captioning via Fine-grained Emotion-Cause Pair Extraction

arxiv url: http://arxiv.org/abs/2606.08566v1
Date: Sun, 07 Jun 2026 10:43:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.267583
Title: Towards Accurate Emotion-Attributed Video Captioning via Fine-grained Emotion-Cause Pair Extraction
Title（参考訳）: 微粒な感情因果対抽出による感情分布映像キャプションの高精度化に向けて
Authors: Weidong Chen, Cheng Ye, Zhendong Mao, Liping Wang, Xinyan Liu, Yongdong Zhang,
Abstract要約: Emotional Video Captioning(EVC)は、ビデオの事実的正確で感情的なリッチな記述を生成することを目的とした課題である。既存のECV手法では、全体的視覚的特徴を利用して、世界的感情的手がかりを抽出し、マルチモーダルな特徴を集約し、感情的なキャプション生成を導く。本稿では,感情対応ビデオキャプションのための微粒な感情原因対抽出フレームワークを提案する。
参考スコア（独自算出の注目度）: 47.762139272076126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotional Video Captioning (EVC) is a challenging task that aims to generate factually accurate and emotionally rich descriptions for videos. Existing EVC methods leverage holistic visual features to mine global emotional cues, and then aggregate multimodal features to guide the emotional caption generation, which ignores the critical characteristic of the EVC task. Visual emotions are evoked by specific motivational causes, which are usually only implied in core video segments. The holistic mining brings significant information redundancy and inaccurate emotional cues. Thus, fine-grained visual cause extraction has a facilitative effect on both emotion perception and emotion-attributed caption generation. To this end, we propose a fine-grained emotion-cause pair extraction framework for emotion-attributed video captioning. Specifically, we learn pair-wise emotion and cause features in two rounds: 1) We propose a Concept-aware Visual Semantic Decomposition module to augment visual features by exploring scene, object, and motion concepts. Besides, to enhance emotional features, we propose a Visual-guided Emotion Interpretable Learning module, which guides emotion refinement with visual temporal dynamics, and augments the interpretable refinement process by reliable VAD-vector constraints. 2) We achieve emotion-cause pair extraction by cross-coupling the visual and emotional features before and after refinement, and leverage contrastive loss to achieve semantic forced alignment. Overall, our approach optimizes complex semantic understanding and emotion perception of videos, leading to a promising performance in emotional captioning. Extensive experiments on three challenging datasets demonstrate the superiority of our approach and each proposed module, e.g., achieving the best performances with +4.4% and +5.4% w.r.t. BLEU-2 and ROUGE-L, respectively, on the EVC-MSVD dataset.
Abstract（参考訳）: Emotional Video Captioning(EVC)は、ビデオの事実的正確で感情的なリッチな記述を生成することを目的とした課題である。既存のECV手法では、全体的視覚的特徴を活用し、世界的感情的手がかりを抽出し、マルチモーダル特徴を集約して感情的キャプション生成を導出する。視覚的感情は特定の動機づけによって誘発され、通常はコアビデオセグメントにのみ反映される。全体的マイニングは、重要な情報冗長性と不正確な感情的な手がかりをもたらす。このように、きめ細かい視覚的原因抽出は、感情知覚と感情提示キャプション生成の両方に促進的な影響を及ぼす。そこで本研究では,感情対応ビデオキャプションのための微粒な感情原因対抽出フレームワークを提案する。具体的には、ペアワイズ感情を学び、2ラウンドで特徴を生じさせます。 1) シーン, オブジェクト, モーションの概念を探索し, 視覚的特徴を増強する概念認識型視覚意味分解モジュールを提案する。さらに、感情的特徴を高めるために、視覚的時間的ダイナミックスで感情の洗練を導く視覚誘導型感情解釈学習モジュールを提案する。 2) 改善前後の視覚的特徴と感情的特徴を相互に結合させることにより, 感情によるペア抽出を実現し, コントラスト的損失を利用して意味的強制的アライメントを実現する。提案手法は,ビデオの複雑な意味理解と感情知覚を最適化し,感情的キャプションにおける有望なパフォーマンスをもたらす。 EVC-MSVDデータセットでは、3つの挑戦的データセットに対する大規模な実験により、我々のアプローチの優位性と、提案された各モジュール、例えば、+4.4%と+5.4%の最高のパフォーマンスをそれぞれBLEU-2とROUGE-Lで達成したことを示す。

関連論文リスト

FACE-net: Factual Calibration and Emotion Augmentation for Retrieval-enhanced Emotional Video Captioning [81.33341786837974]
Emotional Video Captioning (EVC) は、ビデオで表現される本質的な感情で事実を記述することを目的とした、新たなタスクである。 FActual and Emotion Augmentation (FACE-net) を用いた検索強化フレームワークを提案する。 FACE-netは、事実と感情のセマンティクスを協調的にマイニングし、生成のための適応的で正確なガイダンスを提供する。
論文参考訳（メタデータ） (2026-03-18T07:53:15Z)
EmoVerse: A MLLMs-Driven Emotion Representation Dataset for Interpretable Visual Emotion Analysis [61.87711517626139]
EmoVerseは、解釈可能な視覚的感情分析を可能にする、大規模なオープンソースデータセットである。 219k以上の画像で、データセットはさらにカテゴリー感情状態(CES)と次元感情空間(DES)の2つのアノテーションを含んでいる。
論文参考訳（メタデータ） (2025-11-16T11:16:50Z)
VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models [46.591026037722436]
本稿では,基本的属性認識,表現分析,高レベルの感情理解を統一する感情的手がかり誘導推論フレームワークを提案する。我々のアプローチの核心は、感情推論と指示追従のために特別に設計されたビデオ感情基盤モデル(VidEmo)のファミリーである。基礎的なデータ基盤を確立し,210万の多様な命令ベースのサンプルからなる感情中心の微粒化データセットを導入する。
論文参考訳（メタデータ） (2025-11-04T16:31:09Z)
EmoCAST: Emotional Talking Portrait via Emotive Text Description [56.42674612728354]
EmoCASTは、正確なテキスト駆動感情合成のための拡散ベースのフレームワークである。外観モデリングでは、感情的なプロンプトはテキスト誘導の分離された感情的モジュールを通して統合される。 EmoCASTは、現実的で感情的に表現され、音声同期されたトーキーヘッドビデオを生成する、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-08-28T10:02:06Z)
KEVER^2: Knowledge-Enhanced Visual Emotion Reasoning and Retrieval [35.77379981826482]
感情推論と検索のための知識強化フレームワークである textbfK-EVERtextsuperscript2 を提案する。本手法では,視覚的感情の意味的構造を定式化し,マルチモーダルアライメントを通じて外部の情緒的知識を統合する。 Emotion6、EmoSet、M-Disasterの3つの代表的なベンチマークで、ソーシャルメディアの画像、人間中心のシーン、災害状況について検証した。
論文参考訳（メタデータ） (2025-05-30T08:33:32Z)
Emotion-Qwen: A Unified Framework for Emotion and Vision Understanding [26.36195886824082]
Emotion-Qwenは、堅牢な感情理解と一般的な推論機能を維持するために同時に設計された統合マルチモーダルフレームワークである。我々は,40万本以上のビデオクリップに詳細な文脈対応感情記述を付加した大規模バイリンガル・リソースであるビデオ感情推論データセットを開発した。
論文参考訳（メタデータ） (2025-05-10T16:15:26Z)
Dual-path Collaborative Generation Network for Emotional Video Captioning [33.230028098522254]
感情的ビデオキャプション(Emotional Video Captioning)は、ビデオで表現される本質的な感情で事実的コンテンツを記述することを目的とした、新たなタスクである。既存の感情的ビデオキャプション手法は、最初は世界的視覚的感情的手がかりを認識し、ビデオ機能と組み合わせて感情的キャプション生成を導く。本稿では、感情的なキャプションを生成しながら、動的に視覚的な感情的手がかりを知覚するデュアルパス協調生成ネットワークを提案する。
論文参考訳（メタデータ） (2024-08-06T07:30:53Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。