論文の概要: Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources
- arxiv url: http://arxiv.org/abs/2606.14141v1
- Date: Fri, 12 Jun 2026 05:58:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.764951
- Title: Spatio-Temporal Audio Language Modeling for Dynamic Sound Sources
- Title(参考訳): 動的音源に対する時空間音響言語モデリング
- Authors: Oh Hyun-Bin, Kazuki Shimada, Yuhta Takida, Kim Sung-Bin, Toshimitsu Uesaka, Takashi Shibuya, Kyeongyoon Lee, Tae-Hyun Oh, Yuki Mitsufuji,
- Abstract要約: 本稿では,ソーストラジェクトリとともにイベントセマンティクスを学習する時間分解型オーディオエンコーダを提案する。
実験により、この表現は意味的局所化を改善し、空間的および局所化指向のトレードオフよりも強い推論をもたらすことが示された。
- 参考スコア(独自算出の注目度): 57.68713138159972
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sound events are entities with semantic identities, locations, and trajectories, but current audio-language models usually reason about clips as global event content. Conversely, sound event localization models track source directions over time but offer limited semantic coverage for language reasoning. To address this gap, we introduce ST-AudioQA, a spatio-temporal audio QA dataset and benchmark built from first-order ambisonic (FOA) renderings of static and moving sound sources. Each scene provides source identity, activity, direction, distance, and motion metadata, enabling dense trajectory supervision and questions about what is sounding, where it is, how it moves, and how sources relate. We further propose ST-Audio Encoder, a time-resolved FOA audio encoder that learns event semantics together with source trajectories, and ST-AudioLM, which connects the audio tokens from the encoder to an LLM for spatio-temporal audio QA. Experiments show that this representation improves the semantic-localization tradeoff and yields stronger reasoning performance than static spatial and localization-oriented baselines.
- Abstract(参考訳): サウンドイベントは意味的アイデンティティ、場所、軌跡を持つエンティティであるが、現在のオーディオ言語モデルは、クリップをグローバルなイベントコンテンツとして考えるのが普通である。
逆に、サウンドイベントのローカライゼーションモデルは、時間とともにソースの方向を追跡するが、言語推論のセマンティックカバレッジは制限される。
このギャップに対処するために、静的及び移動音源の1次アンビソニック(FOA)レンダリングから構築した時空間音響QAデータセットとベンチマークであるST-AudioQAを導入する。
それぞれのシーンは、ソースのアイデンティティ、アクティビティ、方向、距離、動きのメタデータを提供し、密集した軌跡の監督と、何が聞こえるか、どこにあるか、どのように動いているか、ソースがどのように関係しているかに関する質問を可能にする。
さらに、時間分解されたFOA音声エンコーダであるST-Audio Encoderと、そのエンコーダからの音声トークンを時空間オーディオQAのためのLLMに接続するST-AudioLMを提案する。
実験により、この表現は意味的局所化トレードオフを改善し、静的な空間的および局所化指向のベースラインよりも強い推論性能が得られることが示された。
関連論文リスト
- MOSS-Audio Technical Report [80.01042232102883]
MOSS-Audioは、音声、環境音、音楽理解のための統一された音声言語モデルである。
音声キャプション、タイムアウェアな質問応答、タイムスタンプによる書き起こし、音声による推論をサポートする。
論文 参考訳(メタデータ) (2026-06-01T07:19:22Z) - Towards the Vision-Sound-Language-Action Paradigm: The HEAR Framework for Sound-Centric Manipulation [26.766367856312694]
本稿では,視覚・ストリーミング音声・言語・プロプライエセプションを考慮した連続制御パラダイムとして,VSLA(Vision-Sound-Language-Action)を定式化した。
i) 実行ギャップをまたいだコンパクトで因果的な音声コンテキストを維持するためのストリーミングヒストリザ、(ii) オームニ基礎モデルから多感覚入力を推論するエンビジョンタ、(iii) オーディオワールドモデルとして定式化されたアドバンサ、そして(iv) 流れを予測して時間的ダイナミクスを学ぶための、VSLAフレームワークであるHEARを紹介する。
論文 参考訳(メタデータ) (2026-03-17T03:22:30Z) - Sci-Phi: A Large Language Model Spatial Audio Descriptor [25.302416479626974]
Sci-Phi は空間空間エンコーダとスペクトルエンコーダを備えた空間音響モデルである。
1回のパスで最大4つの方向の音源を列挙し、記述する。
性能をわずかに低下させるだけで、実際の部屋のインパルス応答に一般化する。
論文 参考訳(メタデータ) (2025-10-07T03:06:02Z) - Spatial Audio Motion Understanding and Reasoning [8.029049649310211]
空間音響推論は、機械が出来事とその空間特性を理解することによって聴覚シーンを解釈することを可能にする。
空間音響エンコーダを導入し,複数の重なり合う事象を検出し,その空間特性,DoA(Direction of Arrival)および音源距離をフレームレベルで推定する。
第2に、移動音源を含む動的オーディオシーンに関する複雑な質問に答えるために、我々のモデルによって抽出された構造化空間属性に対して、大きな言語モデル(LLM)を条件付ける。
論文 参考訳(メタデータ) (2025-09-18T06:53:22Z) - SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Leveraging Language Model Capabilities for Sound Event Detection [10.792576135806623]
本稿では,音声イベントとその時間的位置を同時に生成しながら,音声特徴を理解するためのエンドツーエンドフレームワークを提案する。
具体的には、事前学習された音響モデルを用いて、異なるカテゴリーにわたる識別的特徴を捉え、自動回帰テキスト生成のための言語モデルを用いる。
論文 参考訳(メタデータ) (2023-08-22T15:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。