論文の概要: IHBench: Evaluating Post-Interruption Recovery in Voice Agents with Structured Workflows
- arxiv url: http://arxiv.org/abs/2606.19595v1
- Date: Wed, 17 Jun 2026 20:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.539885
- Title: IHBench: Evaluating Post-Interruption Recovery in Voice Agents with Structured Workflows
- Title(参考訳): IHBench: 構造化ワークフローによる音声エージェントの中断後のリカバリ評価
- Authors: Ahmad Salimi, Wentao Ma, Yuzhi Tang, Dongming Shen, Mu Li, Alex Smola,
- Abstract要約: 既存の音声対応モデルのベンチマークでは、中断のタイミングに焦点が当てられている。
音声エージェントの中断後回復を評価するベンチマークIHBenchを紹介する。
OpenAI、Google、およびオープンウェイトコミュニティから27のオーディオ言語モデル構成を評価した。
- 参考スコア(独自算出の注目度): 17.25449864868632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice agents deployed in structured workflows (customer service, healthcare scheduling, account management) must handle frequent user interruptions while maintaining progress through multi-step procedures. Existing benchmarks for speech-capable models focus on the timing of interruptions: barge-in detection, endpointing, and turn-taking dynamics. They leave unmeasured what happens after the interruption: does the agent resume the workflow at the correct step? Does it address the user's interjection? Does it avoid re-delivering content the user already heard? We introduce IHBench (Interruption Handling Benchmark), a benchmark that evaluates post-interruption recovery in voice agents executing state-machine-driven workflows across 10 enterprise domains. Six interruption types are injected at controlled points mid-utterance, with per-interruption evaluation rubrics generated alongside the data. Each interruption is scored on two axes: task fulfillment and recovery quality. We evaluate 27 audio-language model configurations from OpenAI, Google, and the open-weight community. Models vary widely, and recovery quality depends strongly on the interruption type. Across our experiments, closed-weight models are consistently more robust to interruptions than open-weight ones: they win far more often on task fulfillment, degrade roughly 3.3x more slowly as conversations grow longer, and show no audio-versus-text modality gap, whereas the open-weight models lose ground on all three. A human study validates the LLM judge against human annotators, and a cross-benchmark analysis against AudioMultiChallenge indicates that recovery quality is a largely distinct capability axis.
- Abstract(参考訳): 構造化ワークフロー(顧客サービス、医療スケジュール、アカウント管理)に展開される音声エージェントは、多段階手順による進捗を維持しながら、頻繁なユーザの中断を処理しなければなりません。
既存の音声対応モデルのベンチマークでは、バージイン検出、エンドポイント、ターンテイキングダイナミクスといった割り込みのタイミングに焦点を当てている。
エージェントは正しいステップでワークフローを再開するのか?
ユーザの干渉に対処しますか?
ユーザがすでに聞いたコンテンツの再配信を避けるのか?
IHBench(Interruption Handling Benchmark)は、10のエンタープライズドメインにわたるステートマシン駆動ワークフローを実行する音声エージェントの中断後のリカバリを評価するベンチマークである。
6種類の割り込み型が音声中の制御点に注入され、そのデータとともに割り込み評価ルーリックが生成される。
各割り込みは、タスクフルフィルメントとリカバリ品質の2つの軸でスコアされる。
OpenAI、Google、およびオープンウェイトコミュニティから27のオーディオ言語モデル構成を評価した。
モデルは大きく異なり、回復の質は割り込みタイプに強く依存する。
実験全体では、クローズドウェイトモデルはオープンウェイトモデルよりも割り込みに対して一貫して堅牢であり、タスクフルフィルメントにおいてより多く勝利し、会話が長くなるにつれて約3.3倍の速度で低下し、オーディオとテキストのモダリティの差は見られません。
人間による研究は、LLMの判断を人間のアノテーションに対して検証し、AudioMultiChallengeに対するクロスベンチマーク分析は、回復の質がほぼ異なる能力軸であることを示唆している。
関連論文リスト
- Overcoming State Inertia in Full-Duplex Spoken Language Models via Activation Steering [87.43777061308658]
フル音声言語モデル(FDSLM)における予測行動の解析
FDSLMは、モデル出力生成に整合した生成状態と、ユーザ入力に整合した知覚状態の2つの状態間の内部焦点を動的に変調する。
ユーザ中断中は、モデルが知覚状態に遷移する前に生成状態に対して過渡的に偏りを保ち、入力の開始を逃す。
論文 参考訳(メタデータ) (2026-06-09T19:08:07Z) - Learning to Interrupt in Language-based Multi-agent Communication [41.62604808881143]
本稿では、現在話者を割り込むために耳を傾けているエージェントに対して、割り込み可能な通信フレームワークを提案する。
我々は,2エージェントテキストピクチャリーゲーム,3エージェントミーティングスケジューリング,3エージェント討論など,多エージェントシナリオにおけるフレームワークの評価を行った。
実験の結果,HANDRAISERは,タスク性能に優れたベースラインに比べて,通信コストを32.2%削減できることがわかった。
論文 参考訳(メタデータ) (2026-04-07T20:47:40Z) - From Transcripts to AI Agents: Knowledge Extraction, RAG Integration, and Robust Evaluation of Conversational AI Assistants [0.0]
顧客向け産業向けの信頼できる会話AIアシスタントの構築は、ノイズの多い会話データ、断片化された知識、正確なヒューマンハンドオフの必要性により、依然として困難である。
本稿では,履歴書から直接対話型AIアシスタントを構築し,評価するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-26T07:44:47Z) - The Bitter Lesson of Diffusion Language Models for Agentic Workflows: A Comprehensive Reality Check [54.08619694620588]
本稿では,2つの異なるエージェントパラダイムであるEmbodied AgentsとTool-Calling AgentsにまたがるdLLMの包括的評価を行う。
Agentboard と BFCL では,現在の dLLM が信頼できるエージェントバックボーンとして機能しないという,"ビットレッスン" が報告されている。
論文 参考訳(メタデータ) (2026-01-19T11:45:39Z) - Lost in the Noise: How Reasoning Models Fail with Contextual Distractors [57.31788955167306]
推論モデルとエージェントAIシステムの最近の進歩は、多様な外部情報への依存度を高めている。
NoisyBenchは、RAGの11のデータセット、推論、アライメント、ツール使用タスクに対して、モデルロバスト性を体系的に評価する包括的なベンチマークである。
評価の結果,文脈的障害に直面した場合,最先端モデルでは最大80%の破滅的な性能低下がみられた。
論文 参考訳(メタデータ) (2026-01-12T05:43:51Z) - Multi-agent Auditory Scene Analysis [0.0]
聴覚シーン分析(ASA)は、音源の位置、分離、分類の3つの主要なタスクを実行することで、音環境から情報を取得することを目的としている。
これらのタスクを実行すると、全体のレスポンス時間がリニアに増加し、最後のタスクは最初のタスク(ロケーション)のエラーに非常に敏感になる。
タスクを並列に実行し、各タスク間のフィードバックループでローカルエラーを補うためのマルチエージェントアプローチを提案する。
論文 参考訳(メタデータ) (2025-07-03T16:16:46Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。