論文の概要: AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2606.14591v1
- Date: Fri, 12 Jun 2026 16:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.977826
- Title: AudioDER: A Deduplication-Enhanced Reasoning Dataset for Post-Training Large Audio-Language Models
- Title(参考訳): AudioDER: 学習後の大規模オーディオ言語モデルのための重複強化推論データセット
- Authors: Hui Geng, Yi Su, Han Yin, Tianjiao Wan, Qisheng Xu, Jiaxin Chen, Zijian Gao, Hengzhu Liu, Xie Chen, Kele Xu,
- Abstract要約: LALM(Large Audio-Language Models)は、幅広い音声理解タスクにおいて強力なパフォーマンスを示しているが、複雑な音声推論に苦戦している。
既存のオーディオ言語データセットは、多くのサンプルが音響内容に非常によく似ている、かなりの冗長性を含んでいることが多い。
LALMのための推論指向の監視を構築するための冗長性を考慮したデータ構築パイプラインを提案する。
- 参考スコア(独自算出の注目度): 42.62457130960257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) have shown strong performance on a wide range of audio understanding tasks, yet they still struggle with complex audio reasoning. A practical way to improve such capabilities is post-training, whose effectiveness critically depends on the quality and diversity of training data. However, existing audio-language datasets often contain substantial redundancy, where many samples are highly similar in acoustic content and thus provide overlapping supervisory signals. Such redundancy not only increases annotation cost, but also limits corpus diversity and reduces the effectiveness of post-training. To address this issue, we propose a redundancy-aware data construction pipeline for building reasoning-oriented supervision for LALMs. Specifically, we first perform acoustic similarity-based deduplication across raw audio datasets to improve corpus diversity. We then integrate existing audio captions and question-answer pairs into a unified multiple-choice format. Based on these unified annotations, we leverage Qwen3-30B to generate chain-of-thought (CoT) rationales for reasoning-oriented supervision. Based on this pipeline, we construct AudioDER, a reasoning-oriented post-training dataset containing approximately 191k samples spanning sound, speech, and music. Each sample consists of an audio clip, a multiple-choice question, four answer candidates, an audio caption, and a CoT rationale. Extensive experiments show that post-training on AudioDER consistently improves the performance of Qwen2-Audio-7B-Instruct on multiple audio reasoning benchmarks, including MMAU-mini, MMSU, and MMAR. We hope AudioDER can serve as a valuable resource for advancing audio reasoning research and the development of more capable LALMs.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、幅広い音声理解タスクにおいて強力なパフォーマンスを示しているが、複雑な音声推論に苦戦している。
このような能力を改善するための実践的な方法はポストトレーニングであり、その効果はトレーニングデータの質と多様性に大きく依存する。
しかし、既存の音声言語データセットは、多くのサンプルが音響的内容に非常に類似しており、重なり合うオーバシィ信号を提供するような、かなりの冗長性を含んでいることが多い。
このような冗長性はアノテーションのコストを増加させるだけでなく、コーパスの多様性を制限し、ポストトレーニングの有効性を低下させる。
この問題に対処するために,LALMのための推論指向の監視を構築するための冗長性を考慮したデータ構築パイプラインを提案する。
具体的には、まず、音響的類似度に基づく生音声データセット間の重複処理を行い、コーパスの多様性を改善する。
次に,既存の音声キャプションと質問応答ペアを統合された複数選択形式に統合する。
これらの統一アノテーションに基づいて、我々はQwen3-30Bを活用して、推論指向の監視のためのチェーン・オブ・シント(CoT)論理を生成する。
このパイプラインに基づいて、音声、音声、音楽にまたがる約191万のサンプルを含む推論指向のポストトレーニングデータセットであるAudioDERを構築した。
各サンプルは,音声クリップ,複数選択質問,4つの回答候補,音声キャプション,CoT合理化からなる。
広汎な実験により、MMAU-mini、MMSU、MMARを含む複数の音響推論ベンチマークにおけるQwen2-Audio-7B-Instructのパフォーマンスが一貫して改善された。
我々は,AudioDERが音声推論研究の進展と,より有能なLALMの開発に有用な資源になることを期待している。
関連論文リスト
- AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T00:56:51Z) - Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning [39.264735719707154]
現在の取り組みは、ワンタイムエンコーディングを通じて音声コンテンツを文脈化することで、テキストベースの推論を再現している。
本稿では,このボトルネックを突破するための音声インターリーブ推論を提案する。
本稿では,要求時に音声に動的に再登録できるLALMのEchoについて述べる。
論文 参考訳(メタデータ) (2026-02-12T13:06:34Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models [91.11904427660043]
本稿では,音声タスクの深い推論のための大規模音声言語モデルであるAudio-Reasonerを紹介する。
我々は、CoTA上でAudio-Reasonerを訓練し、オーディオ推論において優れた論理的機能を実現する。
以上の結果から,音声推論における構造化CoTトレーニングのコアが強調された。
論文 参考訳(メタデータ) (2025-03-04T06:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。