論文の概要: CORTIS: Text-Only Adaptation of Spoken Language Models for Task-Oriented Voice Agents
- arxiv url: http://arxiv.org/abs/2606.21453v1
- Date: Fri, 19 Jun 2026 14:11:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 13:22:10.916877
- Title: CORTIS: Text-Only Adaptation of Spoken Language Models for Task-Oriented Voice Agents
- Title(参考訳): CORTIS:タスク指向音声エージェントのための音声言語モデルのテキストオンリー適応
- Authors: Youngwon Choi, Hyeonyu Kim, Taeyoun Kwon, Donghyuk Jung, Myeongkyun Cho,
- Abstract要約: タスク指向音声エージェントのためのテキストのみ適応フレームワークであるCORTISを提案する。
音声に基づく構造化出力生成を可能にするテキスト形式のタスク管理を用いたCORTISファインチューンSLM
その結果, CORTISは整合カスケードと競合し, 音響劣化下ではより明確な優位性を示すことがわかった。
- 参考スコア(独自算出の注目度): 1.681860865621691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Task-oriented voice agents need to map spoken user requests to structured outputs such as semantic frames, executable actions, and function calls. A common approach is to cascade ASR with a text-based LLM, but transcription errors can propagate to downstream structured output generation, especially under noisy conditions. Spoken language models (SLMs) offer a direct speech-based alternative, yet adapting them to new tasks typically requires paired speech-target annotations. Motivated by this gap, we present CORTIS, a text-only adaptation framework for task-oriented voice agents. CORTIS fine-tunes SLMs using text-form task supervision, enabling speech-based structured output generation at inference time without task-specific speech-target annotations during adaptation. We evaluate CORTIS on two Qwen2.5-Omni backbones and three task-oriented speech datasets, including an in-house product dataset, and compare it with matched ASR-LLM cascades trained with the same text-form task supervision. Results show that CORTIS performs competitively with matched cascades and offers clearer advantages under acoustic degradation, particularly in preserving high-level task semantics. These findings suggest that text-only fine-tuning of SLMs can serve as a practical adaptation strategy for voice agents when paired speech-target data are costly to collect.
- Abstract(参考訳): タスク指向の音声エージェントは、音声のユーザリクエストをセマンティックフレーム、実行可能なアクション、関数呼び出しなどの構造化された出力にマッピングする必要がある。
一般的なアプローチは、テキストベースのLLMでASRをカスケードするが、特にノイズのある条件下では、転写エラーは下流の構造化出力生成に伝播する。
音声言語モデル(SLM)は、直接音声ベースの代替手段を提供するが、これらを新しいタスクに適用するには、通常、ペアの音声ターゲットアノテーションが必要である。
そこで本研究では,タスク指向音声エージェントのためのテキストのみ適応フレームワークであるCORTISを提案する。
テキスト形式のタスク監視を用いたCORTISファインチューンSLMは、タスク固有の音声ターゲットアノテーションを使わずに、推論時に音声ベースの構造化出力を生成する。
我々は,Qwen2.5-Omniの2つのバックボーンと社内製品データセットを含む3つのタスク指向音声データセット上でCORTISを評価し,同じテキスト形式のタスク管理で訓練されたASR-LLMカスケードと比較した。
その結果,CORTISは一致したカスケードと競合し,特にハイレベルなタスクセマンティクスの保存において,音響劣化下でより明確なアドバンテージを提供することがわかった。
これらの結果から,SLMのテキストのみの微調整は,ペア音声データ収集にコストがかかる場合に,音声エージェントの実践的適応戦略として有効であることが示唆された。
関連論文リスト
- TagSpeech: End-to-End Multi-Speaker ASR and Diarization with Fine-Grained Temporal Grounding [15.908533215017059]
本稿では,テンポラルアンカーグラウンドを用いた統合フレームワークTagSpeechについて述べる。
本フレームワークは,(1)SOT(Serialized Output Training)を用いて微調整されたセマンティックストリームと話者ストリームを分離してターンテイクダイナミクスを学習し,(2)セマンティック理解と話者追跡の同期信号として機能するインターリーブ時間アンカー機構である。
論文 参考訳(メタデータ) (2026-01-11T12:40:07Z) - HarmoniFuse: A Component-Selective and Prompt-Adaptive Framework for Multi-Task Speech Language Modeling [52.537908557508324]
HarmoniFuseは、マルチタスク音声言語モデリングのためのコンポーネント選択およびプロンプト適応フレームワークである。
バッチインターリーブのトレーニング戦略により、ジョイントアノテーションを必要とせずに、別々のASRとSERデータセットを活用することができる。
論文 参考訳(メタデータ) (2025-09-23T02:53:38Z) - Optimal Transport Regularization for Speech Text Alignment in Spoken Language Models [46.76139085979338]
OTRegは、音声テキストアライメントを最適な輸送問題として定式化し、正規化損失を導出し、SLM訓練を改善する方法である。
OTRegは軽量で、追加のラベルや学習可能なパラメータは必要とせず、既存のSLMトレーニング手順とシームレスに統合される。
論文 参考訳(メタデータ) (2025-08-11T16:06:04Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Typing to Listen at the Cocktail Party: Text-Guided Target Speaker Extraction [37.27069171640074]
人間は単一話者を複雑な音響環境から容易に隔離することができ、これは「カクテルパーティー効果」と呼ばれる。
従来のターゲット話者抽出アプローチはボイスプリントに依存しており、プライバシー上の懸念や、登録サンプルの品質と可用性に関する問題に直面している。
この研究は、LLM-TSEという新しいテキスト誘導型TSEパラダイムを導入している。
論文 参考訳(メタデータ) (2023-10-11T08:17:54Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。