Fugu-MT 論文翻訳(概要): Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

論文の概要: Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations

arxiv url: http://arxiv.org/abs/2606.13464v2
Date: Fri, 12 Jun 2026 04:13:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-15 13:53:03.700891
Title: Ontology Memory-Augmented ASR Correction for Long Text-Speech Interleaved Conversations
Title（参考訳）: 長文音声対話におけるオントロジー記憶強調型ASR補正
Authors: Xinxin Li, Huiyao Chen, Meishan Zhang, Yunxin Li, Zulong Chen, Zhibo Ren, Xiaoqing Dong, Baotian Hu, Min Zhang,
Abstract要約: 本稿では,長文音声対話のためのメモリ拡張型ASR補正フレームワークを提案する。提案手法は10対のバックボーンセットの組み合わせのうち9つにおいて直接補正よりも改善することを示す。
参考スコア（独自算出の注目度）: 49.31192454394301
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic speech recognition (ASR) correction has traditionally focused on isolated utterances or short local contexts. However, as text and speech become increasingly interleaved in long interactions, ASR correction requires conversation-level contextual evidence. Existing ASR correction methods often rely on the current hypothesis or concatenate raw dialogue history. In such contexts, sparse correction evidence can be difficult to locate amid redundancy and noise. Addressing these challenges, we propose an ontology memory-augmented ASR correction framework for long text-speech interleaved conversations. The framework organizes preceding interaction history into a dynamically updatable ontology memory, where entities, terminology, surface variants, potential ASR confusions, and semantic relations are stored as retrievable nodes for context-grounded correction. To evaluate this setting, we construct RAMC-Corr, a dataset derived from MAGIC-RAMC for long-range ASR correction with grounded context. Experiments on RAMC-Corr show that our method improves over direct correction in 9 out of 10 paired backbone-setting combinations and encourages more selective and evidence-grounded corrections for context-dependent ASR errors.
Abstract（参考訳）: 音声認識(ASR)の補正は、伝統的に孤立した発話や短い局所的な文脈に焦点を当ててきた。しかし、長い対話においてテキストと音声がますますインターリーブされていくにつれて、ASR補正は会話レベルの文脈証拠を必要とする。既存のASR補正手法は、しばしば現在の仮説に依存するか、生の対話履歴をまとめる。このような文脈では、冗長性とノイズの中でスパース補正の証拠を見つけることは困難である。これらの課題に対処するため,長文音声対話のためのオントロジーメモリ拡張ASR補正フレームワークを提案する。このフレームワークは、前の相互作用履歴を動的にアップダブルなオントロジーメモリに整理し、エンティティ、用語、表面変種、潜在的なASRの混乱、セマンティックリレーションをコンテキスト基底補正のための検索可能なノードとして格納する。この設定を評価するために,MRIC-RAMCから派生したデータセットであるRAMC-Corrを構築した。 RAMC-Corrを用いた実験では、10組のバックボーンセットの組み合わせのうち9つで直接補正が向上し、文脈に依存したASRエラーに対してより選択的でエビデンスに基づく補正が促進されることが示された。

関連論文リスト

Towards Human-Like Interactive Speech Recognition With Agentic Correction and Semantic Evaluation [53.844308305341166]
単一パスのASRフロントエンドと意味的訂正,意図のルーティング,推論に基づく編集を組み合わせた閉ループフレームワークである textbfAgentic ASR を提案する。複数言語、名前付き集中型、コードスイッチングベンチマークの実験は、反復的相互作用が意味的誤りを一貫して減少させることを示している。
論文参考訳（メタデータ） (2026-05-28T06:23:31Z)
Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
Semantic Anchoring in Agentic Memory: Leveraging Linguistic Structures for Persistent Conversational Context [0.0]
本稿では,ベクトルベースストレージを明示的な言語的手がかりで強化し,ニュアンス付きコンテキスト豊富な交換のリコールを改善するハイブリッド型エージェントメモリアーキテクチャを提案する。適応した長期対話データセットの実験では、意味的アンカーがRAGベースラインよりも最大18%、事実的リコールと談話のコヒーレンスを改善することが示されている。
論文参考訳（メタデータ） (2025-08-18T05:14:48Z)
Contextual ASR Error Handling with LLMs Augmentation for Goal-Oriented Conversational AI [27.56203179880491]
汎用自動音声認識(ASR)システムは、目標指向対話において必ずしもよく機能しない。我々は、事前のユーザデータを持たないタスクに修正を拡張し、語彙や構文の変化のような言語的柔軟性を示す。
論文参考訳（メタデータ） (2025-01-10T17:35:06Z)
Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文参考訳（メタデータ） (2024-09-24T21:42:25Z)
Enhancing Dialogue Speech Recognition with Robust Contextual Awareness via Noise Representation Learning [6.363223418619587]
本研究では,CNRL(Context Noise Representation Learning)を導入し,雑音に対する堅牢性を向上し,対話音声認識の精度を向上する。本手法は,音声対話の評価に基づいて,ベースラインよりも優れた結果を示す。
論文参考訳（メタデータ） (2024-08-12T10:21:09Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文参考訳（メタデータ） (2024-05-26T19:58:38Z)
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。 WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文参考訳（メタデータ） (2022-03-31T06:39:14Z)
Contextualized Attention-based Knowledge Transfer for Spoken Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。 Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2020-10-21T15:17:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。