Fugu-MT 論文翻訳(概要): From Awareness to Adherence: Bridging the Context Gap in Spoken Dialogue Systems via Context-Aware Decoding

論文の概要: From Awareness to Adherence: Bridging the Context Gap in Spoken Dialogue Systems via Context-Aware Decoding

arxiv url: http://arxiv.org/abs/2606.16472v1
Date: Mon, 15 Jun 2026 09:37:11 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-16 16:21:34.343824
Title: From Awareness to Adherence: Bridging the Context Gap in Spoken Dialogue Systems via Context-Aware Decoding
Title（参考訳）: 認識から定着へ:コンテキスト認識デコーディングによる音声対話システムにおけるコンテキストギャップのブリッジ
Authors: Che Hyun Lee, Heeseung Kim, Sungroh Yoon,
Abstract要約: 本稿では,音声適応型コンテキスト認識デコーディング(CAD)手法を提案する。重要な歴史的ラウンドを分離するために内部の注意機構を活用することで、我々のアプローチは、推論中にこの重要なコンテキストを欠いたアウトプットと対比する。 Audio MultiChallengeベンチマークの評価では、セマンティックメモリとセルフコヒーレンスサブタスクの大幅な改善が示されている。
参考スコア（独自算出の注目度）: 55.012827008735194
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the success of end-to-end (E2E) spoken dialogue systems, maintaining strict context adherence in multi-round conversations remains a challenge. While prior works attribute these failures to models forgetting dialogue history, we highlight an equally critical but overlooked bottleneck: a gap between latent context awareness and active adherence. Although models internally recognize relevant past utterances, strong parametric priors often overshadow these signals during decoding. To bridge this gap, we propose an audio-adapted Context-Aware Decoding (CAD) approach. By leveraging internal attention mechanisms to isolate key historical rounds, our approach contrasts output distributions with and without this key context during inference, directly amplifying multimodal contextual signals. Evaluations on the Audio MultiChallenge benchmark demonstrate significant improvements in Semantic Memory and Self Coherence subtasks, successfully enforcing strict, context-faithful adherence.
Abstract（参考訳）: エンド・ツー・エンド(E2E)音声対話システムの成功にもかかわらず、マルチラウンド会話における厳密な文脈順守は依然として課題である。以前の研究は、これらの失敗は対話履歴を忘れるモデルに起因しているが、同様に批判的だが見過ごされているボトルネックを強調している。モデルは過去の発話を内部的に認識するが、強いパラメトリック先行は復号時にこれらの信号を覆い隠すことが多い。このギャップを埋めるために、音声適応型コンテキスト認識復号法(CAD)を提案する。重要な歴史的ラウンドを分離するために内部の注意機構を活用することで、本手法は、推論中に、このキーコンテキストのない出力分布と対比し、マルチモーダルな文脈信号を直接増幅する。 Audio MultiChallengeベンチマークの評価では、セマンティックメモリとセルフコヒーレンスサブタスクの大幅な改善が示され、厳密で文脈に忠実な付着が達成された。

関連論文リスト

Still Between Us? Evaluating and Improving Voice Assistant Robustness to Third-Party Interruptions [52.45054413627452]
TPI-Trainは、話者認識型ハードネガティブで設計された88Kインスタンスのデータセットで、割り込み処理のための音響キュー優先順位付けを強制する。 TPI-Benchは、割り込み処理戦略を厳格に測定するために設計された総合的な評価フレームワークである。
論文参考訳（メタデータ） (2026-04-19T10:03:42Z)
Closing the Modality Reasoning Gap for Speech Large Language Models [33.22455377292432]
TARSは、テキスト条件と音声条件の軌跡を整列する強化学習フレームワークである。提案手法は,7Bスケール音声LLMにおいて,モダリティ推論ギャップを著しく狭め,最先端の性能を実現する。
論文参考訳（メタデータ） (2026-01-09T05:51:56Z)
Enhancing Dialogue Systems with Discourse-Level Understanding Using Deep Canonical Correlation Analysis [0.0]
談話レベルの理解のために,Deep Canonical correlation Analysisを統合した新しいフレームワークを提案する。このフレームワークは会話トークンを学習し、発話と周囲の文脈の関係を捉える。 Ubuntuダイアログコーパスの実験では、応答選択の大幅な向上が示されている。
論文参考訳（メタデータ） (2025-04-12T06:19:08Z)
A Multi-view Discourse Framework for Integrating Semantic and Syntactic Features in Dialog Agents [0.0]
マルチターン対話モデルは,会話の文脈を利用して人間的な応答を生成することを目的としている。既存の手法はしばしばこれらの発話間の相互作用を無視したり、それら全てを等しく重要なものとして扱う。本稿では,検索に基づく対話システムにおける応答選択のための談話認識フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-12T04:22:18Z)
Context Does Matter: Implications for Crowdsourced Evaluation Labels in Task-Oriented Dialogue Systems [57.16442740983528]
クラウドソースラベルは、タスク指向の対話システムを評価する上で重要な役割を果たす。従来の研究では、アノテーションプロセスで対話コンテキストの一部だけを使用することが提案されている。本研究では,対話文脈がアノテーション品質に及ぼす影響について検討する。
論文参考訳（メタデータ） (2024-04-15T17:56:39Z)
Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文参考訳（メタデータ） (2023-05-04T11:35:23Z)
End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文参考訳（メタデータ） (2022-03-27T08:55:28Z)
DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings [33.89889949577356]
本稿では,対話型コントラスト学習手法であるDialogueCSEを提案する。我々は,Microsoft Dialogue Corpus,Jing Dong Dialogue Corpus,E-Commerce Dialogue Corpusの3つの多ターン対話データセットについて評価を行った。
論文参考訳（メタデータ） (2021-09-26T13:25:41Z)
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文参考訳（メタデータ） (2021-09-14T02:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。