論文の概要: RIVET: Robust Idempotent Voice Attribute Editing
- arxiv url: http://arxiv.org/abs/2606.19629v1
- Date: Wed, 17 Jun 2026 22:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.561407
- Title: RIVET: Robust Idempotent Voice Attribute Editing
- Title(参考訳): RIVET:ロバストなIdempotent Voice Attribute編集
- Authors: Dareen Alharthi, Bhuvan Koduru, Rita Singh, Bhiksha Raj,
- Abstract要約: 本研究は, 騒音ラベルの堅牢性向上に有効な手法として, イデオロシティが有効であることを示す。
RIVETは,騒音をラベル付けするための頑健性を改善するために,イデオロシティの目標を組み込んだトレーニングフレームワークである。
RIVETは、編集の成功を改善し、通常の訓練よりも属性のアイデンティティを保存し、イデオロシティが音声編集モデルの堅牢性を改善することを示す。
- 参考スコア(独自算出の注目度): 59.80556306916532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice attribute editing models modify characteristics such as age and gender while preserving speaker identity. In large-scale speech datasets, however, attribute annotations are often noisy or inconsistent, which can cause conditional generative models to produce unstable edits. In this work, we show that idempotency provides an effective mechanism for improving robustness to noisy labels. An idempotent operator is one for which repeated application does not change the result, i.e., f(f(x)) = f(x). Enforcing this property acts as an implicit regularizer that reduces sensitivity to mislabeled examples. We introduce RIVET, a training framework that incorporates an idempotency objective to improve robustness to label noise. We evaluate RIVET under controlled label noise and on the GLOBE dataset with naturally noisy annotations. RIVET improves editing success and better preserves speaker identity than standard training, showing that idempotency improves robustness in voice editing models.
- Abstract(参考訳): 音声属性編集モデルは、話者識別を保ちながら、年齢や性別などの特性を変化させる。
しかし、大規模な音声データセットでは、属性アノテーションはしばしばノイズや矛盾があり、条件付き生成モデルが不安定な編集を生成する可能性がある。
本研究は, 騒音ラベルに対する頑健性を改善するための効果的なメカニズムとして, イデオロシティが有効であることを示す。
等等作用素は、繰り返し適用が結果を変えないもの、すなわち f(f(x)) = f(x) である。
この性質を強制することは暗黙の正則化子として機能し、誤ラベルされた例に対する感度を低下させる。
RIVETは,騒音をラベル付けするための頑健性を改善するために,イデオロシティの目標を組み込んだトレーニングフレームワークである。
制御されたラベルノイズとGLOBEデータセットによるRIVETの評価を行った。
RIVETは、編集の成功を改善し、標準訓練よりも話者アイデンティティを保存し、イデオロシティが音声編集モデルの堅牢性を改善することを示す。
関連論文リスト
- Variational Rectification Inference for Learning with Noisy Labels [74.85528327499662]
損失関数の適応的補正を定式化するために, 変分補正推論(VRI)を提案する。
VRIは、補正ベクトルを潜在変数として扱うことによって階層ベイズとして構成される。
VRIで変分項を導入することにより、条件付き後部を正確に推定し、ディラックデルタ関数への崩壊を避ける。
論文 参考訳(メタデータ) (2026-03-18T01:25:08Z) - ReHear: Iterative Pseudo-Label Refinement for Semi-Supervised Speech Recognition via Audio Large Language Models [12.527207210862151]
ReHearは、自動音声認識における反復的な擬似ラベル改善のためのフレームワークである。
命令調整されたオーディオ対応の大規模言語モデルを自己学習ループに統合する。
ReHearはエラーの伝播を効果的に軽減し、教師付きベースラインと疑似ラベルベースラインの両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-21T05:04:22Z) - Residual Tokens Enhance Masked Autoencoders for Speech Modeling [31.12667739896418]
RT-MAEはマスク付きオートエンコーダフレームワークで、教師付き属性に基づくモデリングを教師なし残差トレーニング可能なトークンで強化する。
RT-MAEは, 表現性を高めつつ, 再現性の向上, コンテンツ保存, 話者類似性の向上を図っている。
論文 参考訳(メタデータ) (2026-01-27T09:30:31Z) - BiRQ: Bi-Level Self-Labeling Random Quantization for Self-Supervised Speech Recognition [63.45645200463539]
BiRQは、BEST-RQの効率とHuBERTスタイルのラベル拡張の強化の利点を組み合わせた、双方向SSLフレームワークである。
提案手法は,960時間のLibriSpeech,150時間のAMIミーティング,5,000時間のYODASなど,さまざまなデータセットで検証する。
論文 参考訳(メタデータ) (2025-09-18T21:09:29Z) - Adaptive Label Correction for Robust Medical Image Segmentation with Noisy Labels [18.868523370902338]
本稿では,雑音ラベルによる堅牢な医用画像分割のための平均教師に基づく適応ラベル補正フレームワークを提案する。
適応ラベルリファインメント機構は、複数の外乱バージョン間での差異を動的にキャプチャし、重み付けし、ノイズラベルの品質を高める。
また、サンプルレベルの不確実性に基づくラベル選択アルゴリズムを導入し、ネットワーク更新に高信頼なサンプルを優先順位付けする。
論文 参考訳(メタデータ) (2025-03-15T18:03:01Z) - Can We Treat Noisy Labels as Accurate? [87.23815842898722]
ノイズラベルは、機械学習モデルの精度と一般化を著しく妨げている。
ノイズラベルからの学習におけるパラダイムシフトであるEchoAlignを提案する。
30%のインスタンス依存ノイズの下では、EchoSelectは以前の方法と比較して、正しくラベル付けされたサンプルの約2倍の数を保持している。
論文 参考訳(メタデータ) (2024-05-21T17:49:10Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - Instance-dependent Label-noise Learning under a Structural Causal Model [92.76400590283448]
ラベルノイズはディープラーニングアルゴリズムの性能を劣化させる。
構造因果モデルを活用することにより,実例依存型ラベルノイズ学習のための新しい生成手法を提案する。
論文 参考訳(メタデータ) (2021-09-07T10:42:54Z) - Approximating Instance-Dependent Noise via Instance-Confidence Embedding [87.65718705642819]
マルチクラス分類におけるラベルノイズは、学習システムの展開にとって大きな障害である。
インスタンス依存ノイズ(IDN)モデルを調査し、IDNの効率的な近似を提案し、インスタンス固有のラベル破損を捕捉する。
論文 参考訳(メタデータ) (2021-03-25T02:33:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。