Fugu-MT 論文翻訳(概要): Turning music identification into a neural forward pass

論文の概要: Turning music identification into a neural forward pass

arxiv url: http://arxiv.org/abs/2606.17301v1
Date: Mon, 15 Jun 2026 21:12:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.148482
Title: Turning music identification into a neural forward pass
Title（参考訳）: 音楽の識別をニューラルフォワードパスに変える
Authors: Muhammad Taimoor Haseeb, Ahmad Hammoudeh, Gus Xia,
Abstract要約: 生成変換器によって1つのニューラルフィードフォワードパスで楽曲の識別を行うことができることを示す。この作業は検索を再構築し、人間の連想認識に近づき、アルゴリズムによるデータベースのルックアップから遠ざかる。
参考スコア（独自算出の注目度）: 14.942241378799702
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Search, a foundational operation in computer science, maps a query to a matching item in a collection. It is typically implemented as a System-2 like, rule-based pipeline in which a key is computed, an index is probed, and candidates are verified. By contrast, human recognition resembles a System-1 like, associative model of identity recovery, in which even partial cues can trigger a recall without explicitly enumerating, ranking, or even accessing discrete candidates. Here, we show that music sound identification, a difficult search problem, can be performed in a single neural feed-forward pass by a generative transformer. Trained on an audio dataset, the model predicts the corresponding track identifier from a short audio excerpt. This approach surpasses state-of-the-art acoustic fingerprinting, with the largest gains for short audio segments (1 second), demonstrating the method is not only viable but advantageous. Moreover, it reduces external storage to 0.33% of the baseline footprint and improves inference latency by 2.3x (p95). Furthermore, the model can reject queries for unseen tracks, supporting open-set operation while reducing misattribution risk. Using music track identification as an example, this work reframes search, bringing it closer in spirit to human associative recognition and away from algorithmic database lookup.
Abstract（参考訳）: コンピュータ科学の基礎的な操作である検索は、クエリをコレクション内の一致するアイテムにマップする。通常はSystem-2のようなルールベースのパイプラインとして実装され、キーが計算され、インデックスが探索され、候補が検証される。対照的に、人間の認識はSystem-1のような、アイデンティティリカバリの連想モデルに似ており、部分的なキューでさえ、明示的に列挙したり、ランキング付けしたり、個別の候補にアクセスしたりすることなくリコールをトリガーすることができる。そこで本研究では,1つのニューラルフィードフォワードパスにおいて,生成変換器による楽曲の識別が困難な探索問題であることを示す。オーディオデータセットに基づいてトレーニングされたモデルは、短いオーディオ抽出から対応するトラック識別子を予測する。このアプローチは、最先端の音響指紋認証を超越し、短い音声セグメント(1秒)の最大ゲインを達成し、この手法が有効であるだけでなく有利であることを示す。さらに、外部ストレージをベースラインフットプリントの0.33%に削減し、推論遅延を2.3倍(p95)改善する。さらに、このモデルでは、未確認トラックに対するクエリを拒否することができ、誤帰リスクを低減しつつ、オープンセット操作をサポートする。音楽トラックの識別を例に挙げると、この研究は検索を再構成し、人間の連想認識に近づき、アルゴリズムによるデータベースの検索から遠ざかる。

関連論文リスト

Training chord recognition models on artificially generated audio [0.0]
本研究では,2つのトランスフォーマーベースニューラルネットワークモデルを用いて,音声録音におけるコードシーケンス認識について比較した。実験により、人工的に生成された音楽と人間の構成音楽の間には複雑さと構造の違いがあるにもかかわらず、前者は特定のシナリオで有用であることが証明された。
論文参考訳（メタデータ） (2025-08-07T22:01:58Z)
Refining music sample identification with a self-supervised graph neural network [16.73613870989583]
本稿では,グラフニューラルネットワークを用いた軽量でスケーラブルな符号化アーキテクチャを提案する。我々のモデルは、現在の最先端システムと比較してトレーニング可能なパラメータの9%しか使用せず、平均平均精度(mAP)は44.2%に達している。さらに,実世界のアプリケーションにおけるクエリは時間的に短い場合が多いため,Sample100データセットに対する新たな詳細なアノテーションを用いて,短いクエリをベンチマークする。
論文参考訳（メタデータ） (2025-06-17T16:19:21Z)
Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset [0.29998889086656577]
人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
論文参考訳（メタデータ） (2025-02-10T11:30:35Z)
One-shot lip-based biometric authentication: extending behavioral features with authentication phrase information [3.038642416291856]
リップベースバイオメトリック認証(LBBA)は、カメラセンサが捉えたビデオデータの形態で、音声中の人の唇の動きに基づく認証方法である。 LBBAは、RGBカメラ以外の追加の感覚機器を必要とすることなく、唇の動きの物理的特性と行動的特性を両立させることができる。
論文参考訳（メタデータ） (2023-08-14T05:34:36Z)
Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-07T11:08:31Z)
A Free Lunch to Person Re-identification: Learning from Automatically Generated Noisy Tracklets [52.30547023041587]
非教師付きビデオベース再識別(re-ID)手法は、re-IDデータセットのアノテートに必要な高コストの問題を解決するために提案されている。しかし、彼らのパフォーマンスは監督対象よりもはるかに低い。本稿では,自動生成人追跡装置から再IDモデルを学習することで,この問題に対処することを提案する。
論文参考訳（メタデータ） (2022-04-02T16:18:13Z)
Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文参考訳（メタデータ） (2021-05-22T10:17:38Z)
Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。フェースフォージェリ検出に高周波雑音を用いることを提案する。 1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。 2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文参考訳（メタデータ） (2021-03-23T08:19:21Z)
Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文参考訳（メタデータ） (2020-12-21T09:04:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。