Fugu-MT 論文翻訳(概要): Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs

論文の概要: Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs

arxiv url: http://arxiv.org/abs/2606.09366v1
Date: Mon, 08 Jun 2026 11:38:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.947559
Title: Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs
Title（参考訳）: テキストは必要か? 音声LLMのためのユニバーサルインフォメーションボトルとしてのテキスト
Authors: Ming-Hao Hsu, Yuxuan Hu, Shujie Liu, Jinyu Li, Yan Lu, Zhizheng Wu,
Abstract要約: 本稿では,LLMの入力埋め込み多様体内に存在する全ての音声表現を制約する言語間LLMブリッジであるConvex Gateを提案する。 C-Gateは、自動音声認識と感情認識にまたがって、強い関節演奏を実現する。結果として,トークンの離散性よりも幾何が音声からLLMインターフェースの基本設計要素であることが示唆された。
参考スコア（独自算出の注目度）: 33.559566576032964
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating continuous acoustic signals into a frozen LLM remains challenging. Existing speech-to-LLM interfaces typically operate at two extremes: either enforcing near-discrete token alignment, which benefits transcription but loses paralinguistic information, or learning unconstrained continuous representations, which can drift away from the LLM's input space and degrade autoregressive decoding. In this work, we propose Convex Gate (C-Gate), a speech-to-LLM bridge that constrains all speech representations to lie within the LLM's input embedding manifold with an architectural convex-hull constraint. Concretely, each frame is represented as a convex combination of token embeddings, ensuring compatibility with the pretrained LLM while preserving continuous expressivity. Across automatic speech recognition (ASR) and emotion recognition, C-Gate achieves strong joint performance, improving LibriSpeech WER by up to 48.7% relative while matching or exceeding single-task emotion accuracy. Beyond performance, our analysis reveals a key insight: information is not carried by discrete token identities, but by time-resolved trajectories in the embedding space. Causal interventions confirm that both the trajectory structure and alignment to the pretrained embedding manifold are critical for performance. These results suggest that geometry, rather than token discreteness, is the fundamental design factor in speech-to-LLM interfaces, and provide a controlled regime for studying multimodal integration in frozen LLMs. We release the checkpoint, per-sample outputs, mechanism dumps, and intervention suite for replication.
Abstract（参考訳）: 大規模言語モデル(LLM)は、音声理解のための強力な推論バックボーンを提供するが、連続的な音響信号を凍結LLMに統合することは依然として困難である。既存の音声-LLMインタフェースは、2つの極端に作用する: ほぼ離散的なトークンアライメントを強制し、転写を恩恵を受けるがパラ言語情報を失うか、制約のない連続表現を学習するか、LLMの入力空間から逸脱し自己回帰デコーディングを劣化させる。本研究では,LLMの入力埋め込み多様体内にすべての音声表現を制約する言語間LLMブリッジであるConvex Gate(C-Gate)を提案する。具体的には、各フレームはトークン埋め込みの凸結合として表現され、連続的な表現性を維持しつつ、予め訓練されたLCMとの整合性を確保する。自動音声認識(ASR)と感情認識(C-Gate)は、強い関節パフォーマンスを達成し、LibriSpeech WERを最大48.7%改善し、シングルタスクの感情精度をマッチングまたは超える。情報とは,個別のトークンの同一性ではなく,埋め込み空間における時間分解軌道によるものである。因果的介入は、軌道構造と事前訓練された埋め込み多様体へのアライメントの両方が性能上重要であることを証明している。これらの結果は, トークンの離散性ではなく, 音声-LLMインタフェースの基本設計要素であり, 凍結LDMにおけるマルチモーダル統合を研究するための制御体制を提供することを示している。私たちは、チェックポイント、サンプルごとの出力、メカニズムダンプ、レプリケーションのための介入スイートをリリースします。

関連論文リスト

Stage-adaptive Token Selection for Efficient Omni-modal LLMs [17.161087166882744]
om-LLMの層単位でのトークン依存性を解析する。効率的なom-LLM推論のための訓練不要な段階適応トークン選択法を提案する。
論文参考訳（メタデータ） (2026-05-19T15:55:16Z)
Disentangle-then-Refine: LLM-Guided Decoupling and Structure-Aware Refinement for Graph Contrastive Learning [8.080589414732982]
テキスト分散グラフ(TAG)上の従来のグラフコントラスト学習(GCL)は、意図せずノイズを伴うタスク関連信号を絡み合わせるブラインド拡張に依存している。近似直交分解に固定された頑健なフレームワークであるSDM-SCRを提案する。
論文参考訳（メタデータ） (2026-04-16T07:57:11Z)
Learning Trajectory-Aware Multimodal Large Language Models for Video Reasoning Segmentation [55.743701532984126]
我々はTrajSegを提案する。TrajSegはマルチモーダル大規模言語モデル上に構築されたシンプルで統一されたフレームワークである。本研究では,MLLMが接頭辞(テキスト・トゥ・トラジェクティブ)と接頭辞(テキスト・トゥ・テキスト)の指示を受理する双方向テキスト・トラジェクティブアライメントを提案する。このようにして、MLLMは、ビデオの対応性の向上と、より知覚的なオブジェクトの軌跡の恩恵を受けることができる。
論文参考訳（メタデータ） (2026-03-23T02:25:51Z)
Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文参考訳（メタデータ） (2026-01-13T03:35:18Z)
Closing the Gap Between Text and Speech Understanding in LLMs [28.538793793887223]
大規模言語モデルは、テキスト機能を音声入力に拡張するために適応することができる。これらの言語適応型LLMは、テキストベースのものよりも一貫して性能が劣っている。 SALAD-Sample- efficient Alignment with Learning through Active selection and cross-modal Distillation。
論文参考訳（メタデータ） (2025-10-15T14:57:16Z)
Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation [59.40886078302025]
マルチモーダル大規模言語モデル(MLLM)は、視覚入力と自然言語出力の整合性を示す。しかし、生成したトークンが視覚的モダリティに依存する範囲は、いまだに理解されていない。 MLLMにおける自己回帰トークン生成を説明するための軽量なブラックボックスフレームワークを提案する。
論文参考訳（メタデータ） (2025-09-26T15:38:42Z)
LM-SPT: LM-Aligned Semantic Distillation for Speech Tokenization [8.365515332927444]
近年の音声トークン化手法は,低レベル音響から意味情報を分離し,言語モデルとの整合性を向上することを目的としている。新規なセマンティック蒸留を導入する音声トークン化手法であるLM-SPTを提案する。 LM-SPTは,ベースラインに比べて高い再現性が得られることを示す。
論文参考訳（メタデータ） (2025-06-20T04:15:14Z)
MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。 MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文参考訳（メタデータ） (2025-05-26T08:56:59Z)
TASTE: Text-Aligned Speech Tokenization and Embedding for Spoken Language Modeling [46.60911294356232]
本稿では,テキスト適応型音声トークン化と埋め込み(TASTE)を導入し,トークン化段階における音声トークンと対応するテキストの書き起こしを一致させる。我々は広範囲な実験を行い、TASTEはトークン列の長さを劇的に減らしながら重要なパラ言語情報を保持することができることを示す。実験の結果,TASTEを用いたSLMはSALMONやStoryClozeに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-04-09T17:14:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。