論文の概要: Steering Where to Listen: Instruction-Based Activation Steering Redirects Temporal Attention in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2606.11400v1
- Date: Tue, 09 Jun 2026 19:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.16038
- Title: Steering Where to Listen: Instruction-Based Activation Steering Redirects Temporal Attention in Large Audio-Language Models
- Title(参考訳): 聴取先:指示に基づくアクティベーションステアリングは大規模音声言語モデルにおける時間的注意を振り返る
- Authors: Tsung-En Lin, Hung-Yi Lee,
- Abstract要約: LALM(Large Audio-Language Models)は、音声理解において優れるが、音声信号のどこにあるかはほとんど明らかにしない。
本稿では,命令に基づくベクトルステアリングについて紹介する。これは音声を固定したまま,異なる指示されたプロンプトからのアクティベーションをコントラストすることで,ステアリングベクトルを構成する。
LALMにおける命令ベースステアリングの力学特性を特徴付けるとともに,これらのモデルが符号化した潜時構造に対する訓練不要プローブを提供する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Audio-Language Models (LALMs) excel at audio understanding but expose little about where in an audio signal they attend. We introduce instruction-based vector steering, which constructs a steering vector by contrasting activations from differently instructed prompts while keeping the audio fixed. Through a systematic probe of LALM attention, we find that - unlike standard prompting or audio-based steering - this intervention significantly redistributes the temporal attention allocated to audio tokens, concentrating it on acoustically relevant regions. We then show that this attention shift is behaviorally meaningful: in a controlled three-event setting, reading out the temporal position of maximal steering-induced attention change recovers the location of a queried sound event without any training, attaining 60.87% and 68.72% overlap with ground-truth intervals on Qwen2-Audio and Audio Flamingo 3, far above direct prompting (31.84%, 46.75%) and random baselines (27.74%). Our results characterize a mechanistic property of instruction-based steering in LALMs and provide a training-free probe for the latent temporal structure these models encode.
- Abstract(参考訳): LALM(Large Audio-Language Models)は、音声理解において優れるが、音声信号のどこにあるかはほとんど明らかにしない。
本稿では,命令に基づくベクトルステアリングについて紹介する。これは音声を固定したまま,異なる指示されたプロンプトからのアクティベーションをコントラストすることで,ステアリングベクトルを構成する。
LALM注意の体系的な調査を通して、標準的なプロンプトやオーディオベースのステアリングとは異なり、この介入は音声トークンに割り当てられた時間的注意を著しく再分割し、音響的に関連のある領域に集中させる。
制御された3値設定では、最大ステアリングによるアテンション変化の時間的位置を読み取ることで、Qwen2-AudioとAudio 3の接地時間間隔(31.84%,46.75%)とランダムベースライン(27.74%)に重なる60.87%,68.72%のトレーニングを伴わず、クエリされたサウンドイベントの位置を回復する。
LALMにおける命令ベースステアリングの力学特性を特徴付けるとともに,これらのモデルが符号化した潜時構造に対する訓練不要プローブを提供する。
関連論文リスト
- AudioMosaic: Contrastive Masked Audio Representation Learning [53.52371029884106]
一般的な音声理解のためのコントラスト学習型オーディオエンコーダであるtextbfAudioMosaic を紹介する。
AudioMosaicは、構造化された時間周波数マスキングをスペクトログラムパッチに適用することで、正のペアを構成する。
実験によると、AudioMosaicはいくつかの標準オーディオベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-05-14T00:56:51Z) - Detecting Hallucinations in SpeechLLMs at Inference Time Using Attention Maps [1.8825446478246406]
音声大言語モデル(SpeechLLMs)における幻覚は重大なリスクを伴うが、既存の検出方法は、コストがかかるか現実的でない金標準出力に依存している。
本研究は,幻覚に関連する病的注意パターンを捉えるために,AuDIORATIO,AUDIOCONSISTENCY,AUDIOENTROPY,TEXTENTROPYの4つの注意指標について検討した。
自動音声認識と音声からテキストへの翻訳作業は,不確実性に基づくベースラインや,それ以前のアテンションに基づくベースラインよりも優れていた。
論文 参考訳(メタデータ) (2026-04-21T15:18:10Z) - Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - Audio Spatially-Guided Fusion for Audio-Visual Navigation [6.536516025407856]
オーディオ・ビジュアル・ナビゲーションのためのオーディオ空間誘導型フュージョンを提案する。
まず,対象とする空間状態情報を適応的に抽出する音声空間特徴エンコーダを設計する。
そこで本研究では,マルチモーダル特徴の動的アライメントと適応融合を実現するために,ASGF(Audio Spatial State Guided Fusion)を導入する。
論文 参考訳(メタデータ) (2026-04-02T07:15:17Z) - Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering [10.510226262026755]
マルチモーダルな大言語モデルは、非テキスト入力の予測を下方修正する代わりに、言語的先行を過度に考慮して、テキスト優位性を示すことができる。
例えば、重要な情報を含む場合でも、決定的な音声証拠を過小評価できる大規模な音声言語モデル(LALM)がある。
我々は,この信号がモデルの出力に影響を与えると増加することを示し,標準的プロンプトの下での音響エンゲージメントの指標を提供する。
論文 参考訳(メタデータ) (2026-03-06T20:18:30Z) - Frame-Level Internal Tool Use for Temporal Grounding in Audio LMs [48.50855715191533]
大規模な音声言語モデルは、複雑な音声理解タスクにますます使われている。
彼らは、単語アライメントや話者ダイアリゼーションのような正確な時間的根拠を必要とする時間的タスクに苦労する。
本稿では,フレームレベルの内部ツール使用法を提案する。これは,内部の音声表現を用いて時間的グラウンドを直接行うように音声LMを訓練する手法である。
論文 参考訳(メタデータ) (2026-02-10T19:19:52Z) - Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。
ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。
不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文 参考訳(メタデータ) (2025-06-23T13:02:20Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。