論文の概要: Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations
- arxiv url: http://arxiv.org/abs/2606.12503v1
- Date: Wed, 10 Jun 2026 16:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.376491
- Title: Dolph2Vec: Self-Supervised Representations of Dolphin Vocalizations
- Title(参考訳): Dolph2Vec: Dolphin Vocalizationsの自己監督的表現
- Authors: Chiara Semenzin, Faadil Mustun, Roberto Dessi, Pierre Orhan, Alexis Emanuelli, Yair Lakretz, Gonzalo de Polavieja, German Sumbre,
- Abstract要約: 半自然主義的な海洋環境下で5つの既知のイルカから5年以上にわたって記録された新しいデータセットを公表した。
私たちはDolph2Vecを紹介します。Dolph2Vecは、このデータに特化してトレーニングされた最初の大規模種別SSLモデルです。
動物コミュニケーション研究における仮説を探るためのモデルと科学的ツールとしてSSLが有効であることを示す。
- 参考スコア(独自算出の注目度): 4.465006859355905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has opened new opportunities in bioacoustics by enabling scalable modeling of animal vocalizations without the need for expensive manual annotation. However, current SSL models in this domain prioritize broad generalization across species and are not optimized for uncovering the fine-grained structure of individual communication systems. In this work, we collect and release a novel dataset of over five years of longitudinal recordings, from five known dolphins in a semi-naturalistic marine environment, an unprecedented resource for studying dolphin communication. We adapt the Wav2Vec2.0 Baevski et al. (2020) architecture to this domain and introduce Dolph2Vec, the first large-scale, species-specific SSL model trained exclusively on this data. We benchmark our model on two biologically relevant tasks: signature whistle classification and whistle detection. Dolph2Vec significantly outperforms general-purpose baselines in both tasks. Beyond performance, we show that learned embeddings and codebook structure capture interpretable acoustic units aligned with dolphin whistle categories and possibly sub-whistle structure, enabling fine-grained analysis of communication patterns. Our findings demonstrate how SSL can serve as both a model and a scientific tool to explore hypotheses in animal communication research.
- Abstract(参考訳): 自己教師付き学習(SSL)は、高価な手動アノテーションを必要とせず、動物の発声のスケーラブルなモデリングを可能にすることによって、バイオ音響学の新たな機会を開いた。
しかし、この領域における現在のSSLモデルは、種間の広範な一般化を優先しており、個々の通信システムの微細構造を明らかにするために最適化されていない。
本研究は,イルカの半自然的海洋環境における5つの既知のイルカからの5年以上の経年的記録を収集・公開し,イルカのコミュニケーションを研究するための前例のない資源である。
We adapt the Wav2Vec2.0 Baevski et al (2020) architecture to this domain and introduced Dolph2Vec, the first large-scale, species-specific SSL model trained on this data。
我々は,シグネチャホイッスル分類とシグネチャホイッスル検出という,生物学的に関係のある2つのタスクについて,我々のモデルをベンチマークした。
Dolph2Vecは、両方のタスクで汎用ベースラインを大幅に上回っている。
学習した埋め込みとコードブック構造は、イルカの口笛のカテゴリやおそらくはサブウィスル構造と整合した解釈可能な音響ユニットをキャプチャし、通信パターンのきめ細かい分析を可能にすることを示す。
動物コミュニケーション研究における仮説を探るためのモデルと科学的ツールとしてSSLが有効であることを示す。
関連論文リスト
- AnimalCLAP: Taxonomy-Aware Language-Audio Pretraining for Species Recognition and Trait Inference [39.07403450813524]
動物の声化は、特に森林のような複雑な環境において、野生生物の評価に重要な洞察を与える。
近年, 深層学習の進歩により, 発声からの自動種分類が可能となった。
階層的な生物学的情報を含む新しいデータセットとモデルからなる分類学対応言語オーディオフレームワークであるAnimalCLAPを紹介する。
論文 参考訳(メタデータ) (2026-03-23T14:53:02Z) - Advanced Framework for Animal Sound Classification With Features Optimization [35.2832738406242]
一般的な動物音響分類に適用可能な自動分類フレームワークを提案する。
提案手法は,精度,リコール,精度を25%以上向上させる。
論文 参考訳(メタデータ) (2024-07-03T18:33:47Z) - animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。
Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。
我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文 参考訳(メタデータ) (2024-06-03T12:11:01Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning [54.617688468341704]
少ないショット学習は、限られたトレーニングサンプルを持つ新しいクラスに一般化するモデルを学ぶことを目的としている。
本研究では,(1)信頼できない擬似ラベルによる基本クラスと新クラスのあいまいさを緩和する高度に設計されたメタトレーニングアルゴリズム,(2)ラベルの少ないデータとラベルなしデータを用いて基礎知識を保ちながら,新クラスの識別的特徴を学習するモデル適応機構を提案する。
論文 参考訳(メタデータ) (2021-10-21T13:25:52Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Transferring Dense Pose to Proximal Animal Classes [83.84439508978126]
より一般的な対象検出器やセグメンタなどと同様に、密集したポーズ認識に存在する知識を、他のクラスにおける密集したポーズ認識の問題に移すことが可能であることを示す。
我々は、人間と幾何学的に整合した新しい動物のためのDensePoseモデルを確立することでこれを行う。
また、クラスチンパンジーにDensePoseの方法でラベル付けされた2つのベンチマークデータセットを導入し、アプローチを評価するためにそれらを使用します。
論文 参考訳(メタデータ) (2020-02-28T21:43:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。