論文の概要: Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models
- arxiv url: http://arxiv.org/abs/2606.10046v1
- Date: Mon, 08 Jun 2026 18:18:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.124852
- Title: Inside the Latent Flow: Causal Deciphering of Attention Dynamics in Audio Separation Foundation Models
- Title(参考訳): 潜時流の内部:音場分離基礎モデルにおける注意運動の因果決定
- Authors: Yuxuan Chen, Haoyuan Xu, Peize He,
- Abstract要約: フローマッチング変換器は強い音声分離を実現するが、その注意力は不透明である。
我々は、確立された因果干渉原理をSAMオーディオのための決定論的推論時間探索プロトコルに適用した。
本研究では,安定層に注意をキャッシュする学習不要加速法LSACを提案する。
- 参考スコア(独自算出の注目度): 11.688174360350326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flow-matching transformers achieve strong audio separation, yet their attention dynamics are opaque. We adapt established causal-intervention principles into a deterministic, inference-time probing protocol for SAM Audio. Orthogonal probing uncovers a dual-pathway text-conditioning mechanism: additive injections control semantic identity, while cross-attention refines acoustic structure. We observe an asynchronous layerwise convergence: stable layers build temporal scaffolds early, whereas fast layers continue resolving artifacts during sampling. The model also attenuates temporal segmentation cues to maintain continuous-flow stability. Using these insights, we propose Layer-Selective Attention Caching (LSAC), a training-free acceleration method that caches attention in stable layers. Across acoustic complexities, LSAC cuts self-attention computation by about ~25% with negligible quality loss and yields up to 6.7x higher quality retention than naive step reduction.
- Abstract(参考訳): フローマッチング変換器は強い音声分離を実現するが、その注意力は不透明である。
我々は、確立された因果干渉原理をSAMオーディオのための決定論的推論時間探索プロトコルに適用した。
直交探索は二重経路のテキストコンディショニング機構を明らかにする: 追加注入は意味的アイデンティティを制御し、クロスアテンションは音響構造を洗練させる。
安定したレイヤが早期に時間的な足場を構築するのに対して、高速なレイヤはサンプリング中にアーティファクトを解決し続けます。
このモデルはまた、連続フロー安定性を維持するために時間的セグメンテーションのキューを減衰させる。
これらの知見を用いて、安定層に注意をキャッシュする訓練不要加速法LSAC(Layer-Selective Attention Caching)を提案する。
音響的複雑さ全体で、LSACは、無視できる品質損失で約25%の自己注意計算を削減し、単純なステップ還元よりも最大6.7倍高い品質保持をもたらす。
関連論文リスト
- Efficient Diffusion LLMs via Temporal-Spatial Parallel Decoding and Confidence Extrapolation [15.129362213838974]
2つのコンポーネントを持つトレース対応復号化フレームワークを提案する。
まず、時間空間並列復号(TSPD)は、トークンが収束し、安全に固定できるかどうかを決定するために、信頼、エントロピー、運動量を含む、トーケン軌道毎の特徴を消費する軽量な時間空間コントローラを使用する。
第二に、CE(Confidence Extrapolation)は、トレーニング不要な状態空間モジュールで、前向きな決定を支援するために、不確実性を伴う将来のロジットトレンドを予測する。
論文 参考訳(メタデータ) (2026-05-29T02:29:28Z) - TAFG-MAN: Timestep-Adaptive Frequency-Gated Latent Diffusion for Efficient and High-Quality Low-Dose CT Image Denoising [20.351907119260705]
低線量CT(LDCT)は放射線被曝を低減させるが、大きなノイズや構造劣化をもたらす。
高速かつ高品質なLDCT画像復調のための遅延拡散フレームワークであるTAFG-MANを提案する。
論文 参考訳(メタデータ) (2026-03-21T15:59:36Z) - Mitigating Temporal Blindness in Kubernetes Autoscaling: An Attention-Double-LSTM Framework [0.0]
本稿では,作業負荷の予測と制御をアテンション強化型2重スタックLSTMアーキテクチャを介して統合する,安定性を考慮した自動スケーリングフレームワークを提案する。
このアプローチは90パーセントのレイテンシを約29%削減すると同時に,レプリカを39%削減することを示す。
これらの結果は, 生産エッジ環境における信頼性, 低ジッタ自動スケーリングの前提条件として, 深い注意記憶による時間的盲点の緩和が重要であることを確認した。
論文 参考訳(メタデータ) (2026-03-21T10:03:53Z) - The Malignant Tail: Spectral Segregation of Label Noise in Over-Parameterized Networks [0.0]
ネットワークが機能的に信号とノイズを分離する障害モードであるMorignant Tailを実験的に分離する。
トレーニングされていないネットワークは、ノイズを積極的に分離し、ノイズに支配されたサブスペースを外科的にプルークするポストホックスペクトルトラニケーションを実現する。
以上の結果から,ラベルノイズ下では,余剰スペクトル容量は無害な冗長性ではなく,構造的負債が潜んでいることが示唆された。
論文 参考訳(メタデータ) (2026-03-02T16:39:42Z) - CAPTAIN: Semantic Feature Injection for Memorization Mitigation in Text-to-Image Diffusion Models [60.610268549138375]
拡散モデルは意図せずトレーニング例を再現し、プライバシーと著作権の懸念を高めることができる。
CAPTAINはトレーニング不要のフレームワークで,聴覚障害時に潜伏した特徴を直接修正することで記憶を緩和する。
論文 参考訳(メタデータ) (2025-12-11T14:01:47Z) - Unleashing Temporal Capacity of Spiking Neural Networks through Spatiotemporal Separation [67.69345363409835]
スパイキングニューラルネットワーク(SNN)は、時間的処理に自然に適していると考えられており、膜電位の伝播は、コア時間的モデリングメカニズムとして広く見なされている。
我々は, 膜伝播を段階的に段階的に除去する非ステートフル(NS)モデルの設計を行った。
論文 参考訳(メタデータ) (2025-12-05T07:05:53Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Flow Matching in the Low-Noise Regime: Pathologies and a Contrastive Remedy [19.64681328133978]
フローマッチングは、生成モデリングと表現学習のための連続時間定式化を提供する。
この枠組みは低雑音体制における根本的な不安定性に悩まされていることを示す。
直接速度回帰を小さな雑音レベルにおける対照的な特徴アライメントに置き換えるハイブリッドトレーニングプロトコルであるLocal Contrastive Flow (LCF)を提案する。
論文 参考訳(メタデータ) (2025-09-25T09:36:41Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Towards Stabilized and Efficient Diffusion Transformers through Long-Skip-Connections with Spectral Constraints [51.83081671798784]
Diffusion Transformers (DiT) は、画像およびビデオ生成のための強力なアーキテクチャとして登場し、優れた品質とスケーラビリティを提供している。
DiTの実用アプリケーションは本質的に動的特徴不安定性に悩まされており、キャッシュされた推論中にエラーを増幅する。
我々は,Long-Skip-Connections (LSCs) で拡張された画像およびビデオ生成型DiTであるSkip-DiTを提案する。
論文 参考訳(メタデータ) (2024-11-26T17:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。