論文の概要: Topic-to-Timestamp Alignment by Constrained Evidence Selection
- arxiv url: http://arxiv.org/abs/2606.20890v1
- Date: Thu, 18 Jun 2026 19:38:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 12:14:49.322829
- Title: Topic-to-Timestamp Alignment by Constrained Evidence Selection
- Title(参考訳): 制約付きエビデンス選択によるトピックとタイムスタンプのアライメント
- Authors: Zeynep Yılbırt, Marina Litvak, Michael Färber,
- Abstract要約: 自然言語のトピックとタイムスタンプによるミーティングの書き起こしが与えられた場合、そのトピックが議論される時間を返すことが目標である。
標準的なRAGセットアップは、関連するトランスクリプトの抜粋を検索できるが、それでも言語モデルにタイムスタンプを生成するよう要求する。
我々はタイムスタンプ予測を時間的候補選択の制約として再放送する。
- 参考スコア(独自算出の注目度): 5.582495870293832
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Meeting archives are difficult to search when users remember what was discussed but not when. We study topic-to-timestamp alignment: given a natural-language topic and a timestamped meeting transcript, the goal is to return the time at which the topic is discussed. A standard RAG setup can retrieve relevant transcript excerpts, but still asks the language model to generate a timestamp, which can produce unsupported or invalid timecodes. We therefore recast timestamp prediction as constrained temporal candidate selection: the system retrieves timestamped transcript chunks, and the model selects the candidate that best grounds the topic instead of generating a timecode. On 420 topic-timestamp queries from 200 municipal meeting transcripts, this increases Recall@5 from 31.9% to 50.0%, reduces MAE from 837.0 seconds to 761.0 seconds with Mistral-7B-Instruct, and increases the number of parseable outputs from 373 to 419 of 420 queries. The results suggest that temporal grounding in long transcripts depends strongly on retrieval quality and output design, not only on the choice of the language model.
- Abstract(参考訳): 会議アーカイブは、ユーザが議論されたことを覚えているがいつではないときに検索するのが困難である。
トピック・トゥ・タイムスタンプのアライメントについて検討する: 自然言語のトピックとタイムスタンプによるミーティングの書き起こしが与えられた場合、そのトピックが議論される時間を返すことが目的である。
標準的なRAGセットアップは、関連するトランスクリプトの抜粋を検索できるが、それでも言語モデルにタイムスタンプを生成するよう要求する。
そこで我々は,タイムスタンプ予測を時間的候補選択の制約として再キャストし,タイムスタンプ付きテキストチャンクを検索し,タイムコードを生成する代わりに最適な候補を選択する。
200の市町村の会議記録からの420のトピックタイムスタンプクエリでは、Recall@5が31.9%から50.0%に増加し、Mistral-7B-InstructでMAEが837.0秒から761.0秒に減少し、解析可能なアウトプットが373から419に増加した。
以上の結果から,長期テキストにおける時間的接地は,言語モデルの選択だけでなく,検索品質と出力設計に強く依存していることが示唆された。
関連論文リスト
- In-Sync: Adaptation of Speech Aware Large Language Models for ASR with Word Level Timestamp Predictions [51.236148875603185]
我々は既存の音声認識言語モデルを拡張して、文字起こしと直接タイムスタンプを予測する。
認識品質を維持しつつアライメントの堅牢性を向上する,新しい軽量なトレーニング戦略を導入する。
論文 参考訳(メタデータ) (2026-04-14T20:56:24Z) - LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio [6.935416517354558]
LongAudio Generation (LARAG) は、Large Language Model (LLM) が取得した、タイムスタンプ付き音響イベント検出において出力する基盤となるフレームワークである。
ハイブリッドエッジクラウド環境にデプロイすることで,このアプローチの実践性を実証する。
イベントレベルの構造的検索は,バニラ検索よりも精度が向上することが示された。
論文 参考訳(メタデータ) (2026-02-16T10:15:22Z) - TimeStampEval: A Simple LLM Eval and a Little Fuzzy Matching Trick to Improve Search Accuracy [0.0]
TimeStampEvalは、非バーバティムな引用を与えられた長い書き起こしから正確にミリ秒のタイムスタンプを取得するためのベンチマークである。
簡単な2段階法では,推論コストを90%以上削減しながら,検索精度を劇的に向上させる。
モチベーションのユースケースは、議会記録のクリップをAIがホストする動詞のナレーションにまとめる、自動化されたロングフォームポッドキャストである。
論文 参考訳(メタデータ) (2025-10-27T21:54:56Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - Word Level Timestamp Generation for Automatic Speech Recognition and Translation [28.176210372699618]
カナリアモデルにおいて,単語レベルのタイムスタンプ予測を可能にするためのデータ駆動型手法を提案する。
提案手法は,4言語で20~120msのタイムスタンプ予測誤差を用いて,80%から90%の精度とリコール率を示す。
論文 参考訳(メタデータ) (2025-05-21T15:24:29Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。
その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-18T09:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。