論文の概要: Quality-Diversity Search in Sound Generation: Investigating Innovation Engines for Audio Exploration
- arxiv url: http://arxiv.org/abs/2606.09780v1
- Date: Mon, 08 Jun 2026 17:40:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.600186
- Title: Quality-Diversity Search in Sound Generation: Investigating Innovation Engines for Audio Exploration
- Title(参考訳): 音生成における品質多様性探索 : 音声探索のためのイノベーションエンジンの検討
- Authors: Björn Þór Jónsson, Çağrı Erdem, Stefano Fasciani, Kyrre Glette,
- Abstract要約: 本研究は、作曲家や音響デザイナーが音楽的目標を達成するためのツールの作成と精巧化に直面する課題に対処する。
我々は、進化的プロセスを用いて多様性を促進し、セレンディピティーな発見を育み、多様性を促進するアルゴリズムは、理論的実現と音の実用的なアクセシビリティのギャップを埋めることができると主張した。
- 参考スコア(独自算出の注目度): 1.7411855207380258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study addresses the challenges composers and sound designers face in creating and refining tools to achieve their musical goals. Using evolutionary processes to promote diversity and foster serendipitous discoveries, we automate the search through uncharted sonic spaces for sound discovery, arguing that diversity-promoting algorithms can bridge the gap between the theoretical realisation and practical accessibility of sounds. We describe a system for generative sound synthesis combining Quality Diversity (QD) algorithms with a supervised discriminative model, inspired by the Innovation Engine algorithm, and explore different configurations and the interplay between the chosen synthesis approach and the discriminative model. We examine the interaction between Compositional Pattern Producing Networks (CPPNs) and Digital Signal Processing (DSP) graphs, introducing a novel approach that uses multiple specialised CPPNs for different frequency ranges; this yields simpler networks while maintaining performance comparable to single-CPPN setups. We also investigate evolutionary stepping stones by analysing goal switches between musical and non-musical contexts, revealing how lineages traverse unlikely paths to current elites. Expanding the behaviour space of a previous study to include various sound durations, we uncover specialisation within temporal niches. Results indicate that CPPN and DSP graphs coupled with a Multi-dimensional Archive of Phenotypic Elites (MAP-Elites) and a deep learning classifier can generate a substantial variety of synthetic sounds, diverse and innovative across temporal and contextual dimensions. We present the generated sound objects through an online explorer and as rendered sound files, and, in the context of music composition, an experimental application that showcases their creative potential across various durations and contexts.
- Abstract(参考訳): 本研究は、作曲家や音響デザイナーが音楽的目標を達成するためのツールの作成と精巧化に直面する課題に対処する。
多様性の促進とセレンディピティーな発見の促進のために進化的プロセスを用いることで、音発見のための未知の音素空間による探索を自動化し、多様性促進アルゴリズムは音の理論的実現と実用的なアクセシビリティのギャップを埋めることができると主張した。
本稿では,品質多様性(QD)アルゴリズムと教師付き識別モデルを組み合わせた音響合成システムについて述べる。
合成パターン生成ネットワーク (CPPN) とデジタル信号処理 (DSP) グラフの相互作用について検討し, 単一CPPNのセットアップに匹敵する性能を維持しつつ, より単純なネットワークが得られることを示す。
また、音楽的文脈と非音楽的文脈の間のゴールスイッチを分析して進化的ステップストーンを解析し、系統が現在のエリートに不可能な経路を横切る方法を明らかにする。
音の持続時間を含む以前の研究の行動空間を拡張することで、時間的ニッチ内での特殊化を明らかにする。
その結果, CPPN と DSP グラフと多次元表現型エリートアーカイブ (MAP-Elites) と深層学習分類器が結合することで, 時間的・文脈的に多様かつ革新的な合成音を生成できることが示唆された。
生成した音響オブジェクトをオンラインエクスプローラーおよびレンダリングされた音響ファイルとして提示し、音楽コンポジションの文脈において、様々な期間と状況にまたがってそれらの創造的ポテンシャルを示す実験的なアプリケーションを示す。
関連論文リスト
- UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions [55.622295453533475]
音声,音楽,音響効果を合成できる統合フローマッチングフレームワークUniSonateを紹介する。
本研究では,非構造環境音を時間潜在空間に投影する動的トークン注入機構を提案する。
実験により、UniSonateは、命令ベースのTSとTTMで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2026-04-24T04:26:04Z) - Exploring Definitions of Quality and Diversity in Sonic Measurement Spaces [1.7411855207380258]
デジタル音声合成は、数百万の構成を含む広大なパラメータ空間を探索する機会を提供する。品質多様性(QD)進化的アルゴリズムは、この可能性を活用するための有望なアプローチを提供するが、その成功は適切な音韻的特徴表現に基づく。
本研究では,QD探索中の音素行動空間を自動的に定義・動的に再構成するための教師なし次元性低減手法について検討する。
その結果、手動による介入や教師あり訓練の制約なしに広いパラメータ空間を探索できる自動音韻探索システムに寄与する。
論文 参考訳(メタデータ) (2025-12-02T13:57:08Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - Discrete Audio Tokens: More Than a Survey! [137.3721175670642]
本稿では,離散型音声トークンの体系的レビューとベンチマークを行う。
音声、音楽、一般的なオーディオドメインをカバーしている。
本稿では,エンコーダデコーダ,量子化技術,トレーニングパラダイム,ストリーム性,アプリケーションドメインに基づくトークン化アプローチの分類法を提案する。
論文 参考訳(メタデータ) (2025-06-12T01:35:43Z) - LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search [0.5624791703748108]
進化的アルゴリズムと生成的深層学習を組み合わせて現実的な音を生成するLVNS-RAVEを提案する。
提案するアルゴリズムは、サウンドアーティストやミュージシャンのための創造的なツールである。
論文 参考訳(メタデータ) (2024-04-22T10:20:41Z) - Sound Model Factory: An Integrated System Architecture for Generative
Audio Modelling [4.193940401637568]
2つの異なるニューラルネットワークアーキテクチャを中心に構築されたデータ駆動型音響モデル設計のための新しいシステムを提案する。
本システムの目的は、(a)モデルが合成できるべき音の範囲と、(b)その音の空間をナビゲートするためのパラメトリック制御の仕様を与えられた、インタラクティブに制御可能な音モデルを生成することである。
論文 参考訳(メタデータ) (2022-06-27T07:10:22Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Audio-Visual Fusion Layers for Event Type Aware Video Recognition [86.22811405685681]
マルチタスク学習方式において,個別のイベント固有のレイヤによるマルチセンサ統合問題に対処する新しいモデルを提案する。
我々のネットワークは単一のラベルで表現されているが、与えられたビデオを表現するために、さらに真のマルチラベルを出力できる。
論文 参考訳(メタデータ) (2022-02-12T02:56:22Z) - EEGminer: Discovering Interpretable Features of Brain Activity with
Learnable Filters [72.19032452642728]
本稿では,学習可能なフィルタと事前決定された特徴抽出モジュールからなる新しい識別可能なEEGデコーディングパイプラインを提案する。
我々は,SEEDデータセットおよび前例のない大きさの新たな脳波データセット上で,脳波信号からの感情認識に向けたモデルの有用性を実証する。
発見された特徴は、以前の神経科学の研究と一致し、音楽聴取中の左右の時間領域間の機能的接続プロファイルの顕著な相違など、新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-10-19T14:22:04Z) - Timbre latent space: exploration and creative aspects [1.3764085113103222]
近年の研究では、教師なしモデルがオートエンコーダを用いて可逆的な音声表現を学習できることが示されている。
生成ニューラルネットワークによって、音色操作の新たな可能性が実現されている。
論文 参考訳(メタデータ) (2020-08-04T07:08:04Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。