論文の概要: SEAM: Shortcut-Aware Real-Time Detection of Scripted vs. Spontaneous Speech for Interview Guardrails
- arxiv url: http://arxiv.org/abs/2606.06837v1
- Date: Fri, 05 Jun 2026 02:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.524357
- Title: SEAM: Shortcut-Aware Real-Time Detection of Scripted vs. Spontaneous Speech for Interview Guardrails
- Title(参考訳): SEAM:インタビューガードレールにおけるスクリプト対自発音声の短時間リアルタイム検出
- Authors: Vsevolod, Kovalev, Pranay Manocha,
- Abstract要約: リアルタイムスクリプタネス検出のためのショートカット対応フレームワークSEAMを提案する。
8sウィンドウでは、外部インタビュードメイン評価セットで0.971+-0.004ROC-AUCを達成する。
- 参考スコア(独自算出の注目度): 5.2844651137597465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scripted vs spontaneous speech detection is appealing for interview guardrails, but benchmark performance can be inflated by shortcuts tied to corpus identity, channel conditions, and recording artifacts rather than speaking style itself. We present SEAM, a shortcut-aware framework for real-time scriptedness detection that combines uniform preprocessing, seam-aware sampling, non-speech augmentation, and a compact DistilHuBERT backbone. With 8s windows, the model achieves 0.971 +- 0.004 ROC-AUC on an external interview-domain evaluation set. Removing the shortcut-prevention components improves internal held-out metrics but sharply reduces external performance, indicating shortcut learning. Post-training quantization reduces the model footprint to 41.8MB with little loss in external performance. The results demonstrate that robust real-time scriptedness detection depends not only on the backbone, but on shortcut-aware data design and evaluation. We release code and model checkpoints.
- Abstract(参考訳): スクリプト対自発的音声検出は、インタビューガードレールにアピールするが、ベンチマークのパフォーマンスは、コーパスアイデンティティ、チャネル条件、記録アーティファクトに結びついたショートカットによって膨らむことができる。
本稿では,一様前処理,シームアウェアサンプリング,非音声強調,コンパクトなDistilHuBERTバックボーンを組み合わせた,リアルタイムスクリプト検出のためのショートカット対応フレームワークSEAMを提案する。
8sウィンドウでは、外部インタビュードメイン評価セットで0.971+-0.004ROC-AUCを達成する。
ショートカット防止コンポーネントの削除は、内部のホールドアウトメトリクスを改善するが、外部のパフォーマンスを著しく低下させ、ショートカット学習を示す。
トレーニング後の量子化により、モデルフットプリントは41.8MBまで減少し、外部性能は低下しない。
その結果、堅牢なリアルタイムスクリプタネス検出は、バックボーンだけでなく、ショートカット対応のデータ設計と評価にも依存することが示された。
コードとモデルチェックポイントをリリースします。
関連論文リスト
- Temporal Contrastive Decoding: A Training-Free Method for Large Audio-Language Models [56.91801348360746]
大規模な音声言語モデル(LALM)は、音声、音声、音楽にまたがって一般化される。
統一デコーダは 時空間のスムーズなバイアスを示します
LALMの学習自由復号法であるemphTemporal Contrastive Decoding (TCD)を提案する。
論文 参考訳(メタデータ) (2026-04-16T02:30:41Z) - Models Know Their Shortcuts: Deployment-Time Shortcut Mitigation [5.949467977832433]
Shortcut Guardrailは、オリジナルのトレーニングデータやショートカットアノテーションにアクセスせずに、トークンレベルのショートカットを緩和する。
ショートカットガードレールは、分布シフト中の未緩和モデルよりも全体的な精度と最悪のグループ精度を向上させる。
論文 参考訳(メタデータ) (2026-04-14T04:43:29Z) - Fast SAM2 with Text-Driven Token Pruning [52.8350457627401]
Segment Anything Model 2 (SAM2) では、視覚計算モデルがプロンプト駆動のビデオオブジェクトセグメンテーションにおいて大幅に進歩している。
SAM2パイプラインは、イメージエンコーダが生成するすべての視覚トークンを、ターゲットオブジェクトとの関係にかかわらず、下流の時間的推論モジュールを通じて伝達する。
本稿では,時間的伝播に先立ってトークン密度を選択的に低減し,推論効率を向上させるためのテキスト誘導型トークンプルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-24T18:59:05Z) - Elementary, My Dear Watson: Non-Invasive Neural Keyword Spotting in the LibriBrain Dataset [1.497166779417398]
キーワードスポッティング(英: Keywords Spotting, KWS)は、脳とコンピュータのインターフェイスのための、プライバシーに配慮した中間タスクである。
我々は、単語レベルのデータローダとColab対応のチュートリアルを備えたpnplライブラリの更新版をリリースした。
論文 参考訳(メタデータ) (2025-10-23T22:44:50Z) - ShortCheck: Checkworthiness Detection of Multilingual Short-Form Videos [8.830479021890577]
ShortCheckはモジュラーで推論のみのパイプラインで、チェック可能なショートビデオを自動的に識別して、人間のファクトチェックを支援する。
このシステムは、音声の書き起こし、OCR、オブジェクトとディープフェイクの検出、ビデオとテキストの要約、クレームの検証を統合する。
ShortCheckは、TikTokビデオを使った2つの手動アノテーション付きデータセット上で、多言語設定で評価することで検証される。
論文 参考訳(メタデータ) (2025-09-24T18:37:45Z) - Context-aware TFL: A Universal Context-aware Contrastive Learning Framework for Temporal Forgery Localization [60.73623588349311]
本研究では,時間的フォージェリーローカライゼーションのための共通文脈対応コントラスト学習フレームワーク (UniCaCLF) を提案する。
提案手法は教師付きコントラスト学習を利用して,異常検出による偽造瞬間の検出と同定を行う。
実物と偽物との間における特徴の識別可能性の限界をさらに押し上げるために、効率的な文脈対応コントラスト符号化を導入する。
論文 参考訳(メタデータ) (2025-06-10T06:40:43Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Random Utterance Concatenation Based Data Augmentation for Improving
Short-video Speech Recognition [20.608636109295354]
エンドツーエンド自動音声認識(ASR)フレームワークの制限の1つは、列車-テスト発話長が一致しない場合、その性能が損なわれることである。
短ビデオASRタスクにおける列車試験発話長ミスマッチ問題を軽減するために,オンザフライランダム発話結合に基づくデータ拡張手法を提案する。
15言語の平均単語誤り率を5.72%削減し、様々な発話長に対する堅牢性を向上させる。
論文 参考訳(メタデータ) (2022-10-28T03:54:57Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。