Fugu-MT 論文翻訳(概要): On Aligning Hierarchical Standardized Embedding for Audio-visual Generalized Zero-shot Learning

論文の概要: On Aligning Hierarchical Standardized Embedding for Audio-visual Generalized Zero-shot Learning

arxiv url: http://arxiv.org/abs/2606.11602v1
Date: Wed, 10 Jun 2026 02:59:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-11 16:42:38.260298
Title: On Aligning Hierarchical Standardized Embedding for Audio-visual Generalized Zero-shot Learning
Title（参考訳）: 音声視覚一般化ゼロショット学習のための階層的標準化埋め込みの調整について
Authors: Zihan Zhang, Jie Hong, Siyuan Fan, Yanghao Zhou, Pengfei Fang,
Abstract要約: 視覚的一般化ゼロショット学習(AV-GZSL)は、見えない物体やシーンの両方を分類することを目的とした課題である。近年の研究では、より情報に富んだ視覚的埋め込みを生成するために、音声と視覚的特徴を融合または整合させることに重点を置いている。本稿では,AHSE (Aligning Hierarchical Standardized Embedding) という手法を提案する。
参考スコア（独自算出の注目度）: 31.446813732779344
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Audio-visual Generalized Zero-shot Learning (AV-GZSL) is a challenging task that aims to classify both seen and unseen objects or scenes by integrating data from audio and visual modalities. Recent studies primarily focus on fusing or aligning audio and visual features to generate more informative audio-visual embeddings. Also, aligning the audio-visual and textual features of most existing methods relies solely on the optimization objectives. However, those methods neglect the inherent distributional and structural differences between audio-visual and textual modalities. To address this limitation, we propose a method termed Aligning Hierarchical Standardized Embedding (AHSE), which enables hierarchical alignment of standardized audio-visual and textual embeddings within a shared embedding space. Specifically, we first apply Z-score standardization to the fused audio-visual and textual embeddings to reduce distributional mismatches. We then introduce a hierarchical alignment strategy that minimizes discrepancies at the semantic, class, and batch levels, thereby constructing a more robust and well-structured embedding space. This strategy not only preserves semantic and inter-class relationships but also maintains spatial consistency within each batch. Extensive experiments on three benchmark datasets: VGGSound-GZSL, UCF-GZSL, and ActivityNet-GZSL, demonstrate that AHSE achieves competitive performance in zero-shot learning.
Abstract（参考訳）: 視覚的一般化ゼロショット学習(AV-GZSL)は、視覚的・視覚的モダリティからのデータを統合することで、見えない物体と見えない場面の両方を分類することを目的とした課題である。近年の研究では、より情報に富んだ視覚的埋め込みを生成するために、音声と視覚的特徴を融合または整合させることに重点を置いている。また、既存のほとんどの手法の音声・視覚・テキストの特徴の整合は、最適化の目的にのみ依存する。しかし、これらの手法は、音声・視覚・テキスト・モダリティの固有の分布的・構造的差異を無視する。この制限に対処するため, 階層型標準埋め込み (AHSE) と呼ばれる手法を提案し, 共有埋め込み空間内での音声・視覚・テキスト埋め込みの階層的アライメントを実現する。具体的には、まず、分散ミスマッチを低減するために、融合した音声視覚とテキストの埋め込みにZスコアの標準化を適用する。次に、セマンティック、クラス、バッチレベルでの不一致を最小限に抑える階層的なアライメント戦略を導入し、より堅牢でよく構造化された埋め込み空間を構築する。この戦略は意味的関係とクラス間関係を保持するだけでなく、各バッチ内で空間的一貫性も維持する。 VGGSound-GZSL、UCF-GZSL、ActivityNet-GZSLの3つのベンチマークデータセットに対する大規模な実験は、AHSEがゼロショット学習において競合性能を達成することを実証している。

関連論文リスト

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization [69.67186845167568]
Open-vocabulary Audio-visual Event Localization (OV-AVEL) は、音声と視覚のキューを共同でモデル化し、イベントを認識および時間的にローカライズする。既存の手法は主にユークリッド空間における共同視覚表現を学習する。音声・視覚イベントの局所化のための階層的セマンティック制約ヘテロジニアスグラフ(HSCHG)を提案する。
論文参考訳（メタデータ） (2026-06-05T08:23:58Z)
Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。意味論の欠如により、異種表現は誤った一致につながる可能性がある。モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文参考訳（メタデータ） (2025-07-28T11:46:35Z)
CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment [76.32508013503653]
CAV-MAE Sync は,自己教師型音声視覚学習のためのオリジナルの CAV-MAE フレームワークの簡易かつ効果的な拡張として提案する。音声をグローバルな表現ではなく,映像フレームに整合した時間的シーケンスとして扱うことで,モダリティ間のミスマッチに対処する。パッチトークンのセマンティック負荷を低減するための学習可能なレジスタトークンを導入することにより,空間的ローカライゼーションを改善する。
論文参考訳（メタデータ） (2025-05-02T12:59:58Z)
Audio-visual Generalized Zero-shot Learning the Easy Way [20.60905505473906]
本稿では,EZ-AVGZLについて述べる。我々は,VGGSound-GZSL,UCF-GZSL,ActivityNet-GZSLベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-18T01:57:16Z)
Stepping Stones: A Progressive Training Strategy for Audio-Visual Semantic Segmentation [7.124066540020968]
AVSS (Audio-Visual Semantic) は映像中の音源の画素レベルのローカライゼーションを実現することを目的としており、AVSS (Audio-Visual Semantic) は音声視覚シーンの意味的理解を追求している。従来の方法は、エンドツーエンドのトレーニングにおいて、このマッシュアップを扱うのに苦労しており、学習とサブ最適化が不十分である。 textitStepping Stonesと呼ばれる2段階のトレーニング戦略を提案し、AVSSタスクを2つの単純なサブタスクに分解する。
論文参考訳（メタデータ） (2024-07-16T15:08:30Z)
Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。 LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。 LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文参考訳（メタデータ） (2024-07-11T01:57:08Z)
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-09-29T20:48:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。