論文の概要: SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2606.06907v1
- Date: Fri, 05 Jun 2026 04:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.572388
- Title: SpectCount: Spectrotemporal Counting via Synthetic Signals Improves Large Audio Language Models
- Title(参考訳): SpectCount: 大規模な音声言語モデルを改善する合成信号による分光時間計数
- Authors: Seonuk Kim, Yonghyeon Jun, Ju Yeon Kang, Jimin Hong, Yoonhyeong Lee, Nam Soo Kim,
- Abstract要約: 大規模なオーディオ言語モデル(LALM)は、オーディオエンコーダと大規模オーディオデータを用いて、大きな言語モデルを拡張する。
本研究では,完全合成音声信号に基づくデータ効率の良い微調整手法であるSpectrotemporal Counting (SpectCount)を提案する。
- 参考スコア(独自算出の注目度): 11.23346080242434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large audio language models (LALMs) extend large language models with an audio encoder and large-scale audio data. However, the scarcity of high-quality annotated audio data remains a fundamental bottleneck for scaling. Through probing signal detectability analysis, we identify fine-grained spectrotemporal perceptual weaknesses in a foundation LALM. To address these challenges, we propose Spectrotemporal Counting (SpectCount), a data-efficient fine-tuning approach based on fully synthetic audio signals generated on-the-fly, without relying on real-world audio, annotations, or pretrained generative models. SpectCount not only resolves the observed weaknesses but also improves performance on diverse auditory benchmarks spanning sound, music, and speech, unseen during fine-tuning. These results suggest that weakness-targeted synthetic signals provide a data-efficient path toward enhanced auditory understanding capabilities in LALMs.
- Abstract(参考訳): 大規模なオーディオ言語モデル(LALM)は、オーディオエンコーダと大規模オーディオデータを用いて、大きな言語モデルを拡張する。
しかし、高品質なアノテートされたオーディオデータの不足は、スケーリングの基本的なボトルネックである。
信号検出可能性の探索を通じて,基礎LALMにおける微細な分光時空間の弱点を同定する。
これらの課題に対処するために,実世界の音声やアノテーション,あるいは事前学習された生成モデルに頼ることなく,オンザフライで生成した完全合成音声信号に基づくデータ効率の良い微調整手法であるSpectrotemporal Counting (SpectCount)を提案する。
SpectCountは観測された弱点を解消するだけでなく、音、音楽、音声にまたがる様々な聴覚ベンチマークのパフォーマンスも改善する。
これらの結果から,弱目的合成信号はLALMの聴覚理解能力向上に向けたデータ効率の高い経路となることが示唆された。
関連論文リスト
- AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T00:56:51Z) - Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - Towards Audio Token Compression in Large Audio Language Models [26.379508239446935]
大規模オーディオ言語モデル(LALM)は、様々なタスクにまたがる素晴らしいパフォーマンスを示している。
しかし、そのスケーラビリティは、注意の二次的な複雑さと、音声信号の高いトークンレートによって制限される。
本稿では,LALMのオーディオエンコーダが生成する音声トークン数を,LCMデコーダが消費する前に削減する手法について検討する。
論文 参考訳(メタデータ) (2025-11-26T02:00:38Z) - Thinking with Sound: Audio Chain-of-Thought Enables Multimodal Reasoning in Large Audio-Language Models [49.097347801692166]
本稿では,Large Audio-Language ModelsとAudio CoTを併用したThinking-with-Sound(TwS)を提案する。
TwSにより、モデルは音声信号で積極的に考えることができ、数値解析やマルチモーダル推論によるデジタル操作を行うことができる。
実験によると、最先端のLALMはMELD-Hard1kで劇的に性能が低下しており、クリーンオーディオに比べて精度が50%以上低下している。
論文 参考訳(メタデータ) (2025-09-26T01:27:59Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - High Performance Sequence-to-Sequence Model for Streaming Speech
Recognition [19.488757267198498]
標準的な音声認識タスクにおいて、シーケンス・ツー・シーケンスのモデルが最先端のパフォーマンスを達成するようになった。
しかし、音声データの入力ストリーム上でランオン認識を行う場合、これらのモデルはいくつかの課題に直面している。
注意機構の不確実性を制御する追加の損失関数、部分的、安定な仮説を識別するビーム探索、エンコーダにおけるBLSTMの動作方法、チャンクされたBLSTMの使用を提案する。
論文 参考訳(メタデータ) (2020-03-22T23:04:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。