論文の概要: Continuous Audio Thinking for Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2606.18273v1
- Date: Fri, 05 Jun 2026 11:38:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.795299
- Title: Continuous Audio Thinking for Large Audio Language Models
- Title(参考訳): 大規模音声言語モデルのための連続音声思考
- Authors: Gyojin Han, Dong-Jae Lee, Changho Choi, Jongsuk Kim, Junmo Kim,
- Abstract要約: 応答生成に先立って音響情報を整理するための連続的な潜時ワークスペースを備えた音声モデルを実現するために,Continuous Audio Thinking (CoAT)を導入した。
思考空間内では、モデルはその応答を生成する際に専門家の蒸留によって提供される豊かな音響情報を利用することができる。
CoATは、ベースラインに対する追加の自己回帰復号化コストを必要としない。
- 参考スコア(独自算出の注目度): 16.335310406868217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large audio language models (LALMs) have shown impressive capabilities on diverse audio understanding tasks, ranging from speech transcription to music analysis. However, because LALMs are typically trained to produce text-aligned responses, their hidden states are progressively shaped for text generation rather than for preserving acoustic information. As a result, the diverse acoustic content that audio carries, such as phonetic detail, prosody, sound events, affect, and pitch, is lost along the way and difficult to leverage in the response. We introduce Continuous Audio Thinking (CoAT), a framework that equips audio language models with a continuous latent workspace for organizing acoustic information prior to response generation, grounded by distillation from audio experts. Within the thinking space, the model can utilize the rich acoustic information provided by expert distillation when generating its response. Furthermore, the proposed continuous thinking block can be processed in a single prefill, so CoAT does not require additional autoregressive decoding cost over the baseline. Across three LALMs, Qwen2-Audio, Qwen2.5-Omni-7B, and Audio Flamingo~3, performance gains on a broad benchmark suite spanning audio reasoning, audio understanding, music classification, speech emotion, and speech transcription demonstrate the effectiveness of CoAT. Further analysis confirms that the auxiliary supervision propagates from the thinking positions to the model's textual responses.
- Abstract(参考訳): 大規模な音声言語モデル(LALM)は、音声の書き起こしから音楽分析まで、様々な音声理解タスクにおいて印象的な機能を示している。
しかし、LALMは通常、テキスト整列応答を生成するために訓練されているため、その隠れた状態は、音響情報の保存ではなく、テキスト生成のために徐々に形作られていく。
その結果、音声が伝達する多様な音響コンテンツ、例えば、音のディテール、韻律、音のイベント、影響、ピッチは、途中で失われ、応答の活用が困難になる。
本研究では,音声専門家の蒸留を基礎として,応答生成に先立って音響情報を整理するための連続的な潜時ワークスペースを音響モデルに組み込むフレームワークであるContinuous Audio Thinking (CoAT)を紹介する。
思考空間内では、その応答を生成する際に専門家の蒸留によって提供される豊かな音響情報を利用することができる。
さらに、提案した連続的思考ブロックは1つのプリフィルで処理できるため、CoATはベースラインに追加の自己回帰復号コストを必要としない。
3つのLALM、Qwen2-Audio、Qwen2.5-Omni-7B、Audio Flamingo~3では、音声推論、音声理解、音楽分類、音声感情、音声の書き起こしがCoATの有効性を示している。
さらなる分析により、補助的な監督が思考位置からモデルのテキスト応答へと伝播することを確認する。
関連論文リスト
- Echo: Towards Advanced Audio Comprehension via Audio-Interleaved Reasoning [39.264735719707154]
現在の取り組みは、ワンタイムエンコーディングを通じて音声コンテンツを文脈化することで、テキストベースの推論を再現している。
本稿では,このボトルネックを突破するための音声インターリーブ推論を提案する。
本稿では,要求時に音声に動的に再登録できるLALMのEchoについて述べる。
論文 参考訳(メタデータ) (2026-02-12T13:06:34Z) - Beyond Transcripts: A Renewed Perspective on Audio Chaptering [66.61445564139052]
音声のみのアーキテクチャ(AudioSeg)は,長文音声をコヒーレントなセクションに分割するためのテキストベースのアプローチよりも優れていることを示す。
YTSegの実験では、AudioSegはテキストベースのアプローチを著しく上回り、停止は最大の音響的利得をもたらし、MLLMは文脈長と弱命令によって制限される。
論文 参考訳(メタデータ) (2026-02-09T18:28:10Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - ADIFF: Explaining audio difference using natural language [31.963783032080993]
本稿では,音声の違いを説明するタスクを包括的に研究し,そのタスクのベースラインであるベンチマークを提案する。
本稿では,AudioCaps と Clotho の音声キャプションデータセットから得られた音声差分説明のための2つの新しいデータセットを提案する。
提案するADIFFは, クロスプロジェクションモジュール, 位置キャプション, 3段階のトレーニングプロセスを導入し, 詳細な説明を行う能力を向上させる。
論文 参考訳(メタデータ) (2025-02-06T20:00:43Z) - Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models [0.9285295512807729]
AQA(Audio Question Answering)タスクには、オーディオイベント分類、オーディオキャプション、オープンエンド推論が含まれる。
LALMは一般的な音声理解では優れているが、時間的推論では限られている。
本稿では,音声時間的推論におけるこれらの課題と限界について述べる。
論文 参考訳(メタデータ) (2024-09-10T05:26:53Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。