Fugu-MT 論文翻訳(概要): Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

論文の概要: Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

arxiv url: http://arxiv.org/abs/2606.07033v1
Date: Fri, 05 Jun 2026 08:23:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-08 14:33:29.639132
Title: Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization
Title（参考訳）: 階層的セマンティック制約付き不均質グラフによる音声・視覚イベントの定位
Authors: Zhe Yang, Ruyi Zhang, Hongtao Chen, Wenrui Li, Hengyu Man, Wangmeng Zuo, Xiaopeng Fan,
Abstract要約: Open-vocabulary Audio-visual Event Localization (OV-AVEL) は、音声と視覚のキューを共同でモデル化し、イベントを認識および時間的にローカライズする。既存の手法は主にユークリッド空間における共同視覚表現を学習する。音声・視覚イベントの局所化のための階層的セマンティック制約ヘテロジニアスグラフ(HSCHG)を提案する。
参考スコア（独自算出の注目度）: 69.67186845167568
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open-vocabulary audio-visual event localization (OV-AVEL) jointly models audio-visual cues to recognize and temporally localize events, including categories unseen during training. Existing methods primarily learn joint audio-visual representations in Euclidean space, but still face two significant challenges. First, the lack of supervision signals for unseen categories makes it difficult to maintain audio-visual consistency across multiple temporal scales. Second, the lack of hierarchical constraints between segment- and video-level semantics prevents the model from establishing semantic consistency across different levels. To address these challenges, we propose a hierarchical semantic constrained heterogeneous graph (HSCHG) for audio-visual event localization framework. We first construct a heterogeneous hierarchical graph in Euclidean space, which includes audio and visual segment nodes and their corresponding video-level nodes. We use multi-directional temporal edges to capture complete temporal information within each modality. Simultaneously, we employ a dual-threshold filtering gated fusion strategy, introducing cross-modal information only when the alignment confidence is high. Furthermore, we introduce bidirectional semantic constraints between segment- and video-level representations to achieve semantic consistency across different levels. Based on this, we map the multi-level audio-visual representations and text prototypes uniformly into hyperbolic space. We use a hierarchical entailment regularization loss to characterize the hierarchical relationships between videos and segments. Extensive experimental results show that our method outperforms existing methods on the OV-AVEL benchmark. Ablation studies further validate the effectiveness of our method.
Abstract（参考訳）: Open-vocabulary Audio-Viual Event Localization (OV-AVEL) は、トレーニング中に見えないカテゴリを含むイベントを認識および時間的ローカライズするために、オーディオ-視覚的キューを共同でモデル化する。既存の手法は主にユークリッド空間における共同視覚表現を学習するが、それでも2つの大きな課題に直面している。第一に、目に見えないカテゴリーに対する監視信号の欠如は、複数の時間スケールにわたる音声・視覚の整合性を維持するのを困難にしている。第二に、セグメントレベルのセマンティクスとビデオレベルのセマンティクスの階層的制約が欠如しているため、モデルは異なるレベルのセマンティクスの一貫性を確立することができない。これらの課題に対処するために、音声・視覚イベントの局所化フレームワークのための階層的意味制約不均一グラフ(HSCHG)を提案する。まず、ユークリッド空間に、音声および視覚セグメントノードとその対応するビデオレベルノードを含む異種階層グラフを構築する。我々は多方向時間エッジを用いて、各モーダル内の完全な時間情報をキャプチャする。同時に、アライメント信頼度が高い場合にのみ、クロスモーダル情報を導入し、二重閾値フィルタリングゲート融合戦略を採用する。さらに、セグメントレベルの表現とビデオレベルの表現の双方向意味制約を導入し、異なるレベルのセマンティック一貫性を実現する。これに基づいて,マルチレベル音声視覚表現とテキストプロトタイプを一様に双曲空間にマッピングする。ビデオとセグメント間の階層的関係を特徴付けるために,階層的包含規則化損失を用いる。本手法はOV-AVELベンチマークの既存手法よりも優れていた。アブレーション研究は我々の方法の有効性をさらに検証する。

関連論文リスト

Baton: Explicit Semantic Blueprints for Joint Video-Audio Generation [113.24577778437295]
Batonは、共同ビデオオーディオ生成に明示的なセマンティックプランニングを導入するフレームワークである。我々の重要な洞察は、粗いテキストガイダンスを意味的にリッチでモダリティを意識したトークンで補完することで、細かなセマンティックディテールを同時に復元できるということです。ベンチマークの実験は、バトンの有効性を質的にも定量的にも示している。
論文参考訳（メタデータ） (2026-05-24T17:55:11Z)
EAR: Enhancing Uni-Modal Representations for Weakly Supervised Audio-Visual Video Parsing [15.670119048865274]
弱教師付きオーディオ・ビジュアル・ビデオ・パーシングは、ビデオ内の音声、視覚、およびオーディオ・ビジュアル・イベントを認識し、時間的にローカライズすることを目的としている。本稿では,擬似ラベル生成器とAVVPモデルの両方に一様表現を付加する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2026-05-09T06:13:27Z)
Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding [30.223279362023337]
Video Grounding(VTG)は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。既存のアプローチは、すべてのテキストトークンを、異なる意味的役割を無視して、クロスモーダルな注意の中で均一に扱うのが一般的である。グローバルとローカルのセマンティクスを明確に分離するデュアルブランチアーキテクチャであるDualGroundを提案する。
論文参考訳（メタデータ） (2025-10-23T05:53:01Z)
DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer [43.48616092324736]
制御可能な音声生成のための動的イベントグラフ誘導拡散トランスフォーマフレームワークであるDegDiTを提案する。 DegDiTは、記述中のイベントを構造化された動的グラフとしてエンコードする。 AudioCondition、DESED、AudioTimeデータセットの実験は、DegDiTが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-08-19T12:41:15Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文参考訳（メタデータ） (2022-08-31T14:16:56Z)
Learning Spatial-Temporal Graphs for Active Speaker Detection [26.45877018368872]
SPELLは、長距離マルチモーダルグラフを学習し、オーディオと視覚データ間のモーダル関係を符号化するフレームワークである。まず、各ノードが1人に対応するように、ビデオからグラフを構築する。グラフに基づく表現の学習は,その空間的・時間的構造から,全体の性能を著しく向上させることを示した。
論文参考訳（メタデータ） (2021-12-02T18:29:07Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。