論文の概要: TraRA: Trajectory-level Recognition Aggregation for Video Text Spotting in Urban Surveillance
- arxiv url: http://arxiv.org/abs/2606.07161v1
- Date: Fri, 05 Jun 2026 11:23:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.709554
- Title: TraRA: Trajectory-level Recognition Aggregation for Video Text Spotting in Urban Surveillance
- Title(参考訳): TraRA:都市サーベイランスにおけるビデオテキストスポッティングのための軌道レベル認識アグリゲーション
- Authors: Duc Tri Tran, Trung Thanh Nguyen, Vijay John, Phi Le Nguyen, Yasutomo Kawanishi,
- Abstract要約: ビデオテキストスポッティング(VTS)は、都市監視とインテリジェント交通システムに不可欠である。
時間的・マルチモーダル整合性を利用してトラジェクトリレベルのテキスト認識を行うプラグイン・アンド・プレイ方式であるTraRAを提案する。
TraRAは、最先端のVTSメソッドよりも、トラッキングと認識のパフォーマンスを一貫して改善する。
- 参考スコア(独自算出の注目度): 9.382380971789575
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Video Text Spotting (VTS) is essential for urban surveillance and intelligent transportation systems, enabling automated reading of street signs, vehicle markings, and scene text in video streams. However, reliable recognition remains challenging due to dynamic video factors common in surveillance scenarios, including motion blur, occlusion, and scale variation, which degrade frame-level recognition. Existing VTS methods typically perform recognition independently on each frame, leading to inconsistent and inaccurate results across sequences. To address these limitations, we propose TraRA (Trajectory-level Recognition Aggregation for VTS), a plug-and-play method that performs trajectory-level text recognition by leveraging temporal and multimodal consistency. TraRA integrates two key modules: (1) the Temporal Clustering and (2) the Vision-Language Aggregation. The former refines noisy trajectories by grouping temporally and visually coherent text instances, while the latter employs a Low-Rank Adaptation-enhanced Vision-Language model to fuse visual cues with linguistic context across frames. By aggregating information over entire text trajectories, TraRA achieves robust text recognition even under challenging surveillance conditions. Extensive experiments on four public benchmarks, including road and urban scene datasets (RoadText, BOVText, ArTVideo, and ICDAR15), demonstrate that TraRA consistently improves tracking and recognition performance over state-of-the-art VTS methods. The source code is available at https://github.com/trid2912/TraRA.
- Abstract(参考訳): ビデオテキストスポッティング(VTS)は、街路標識、車両のマーキング、映像ストリーム中のシーンテキストの自動読取を可能にする都市監視およびインテリジェント交通システムに不可欠である。
しかし、フレームレベルの認識を低下させる動きのぼやけ、閉塞、スケールの変動など、監視シナリオに共通するダイナミックなビデオ要因のため、信頼性の高い認識は依然として困難である。
既存のVTSメソッドは通常、各フレームで独立して認識を行い、シーケンス間で不整合および不正確な結果をもたらす。
これらの制約に対処するため,時間的・マルチモーダル整合性を利用してトラジェクティブレベルのテキスト認識を行うプラグイン・アンド・プレイ方式であるトラジェクトリ・レベル認識アグリゲーション(Trajectory-level Recognition Aggregation for VTS)を提案する。
TraRAは、(1)テンポラルクラスタリングと(2)ビジョン・ランゲージ・アグリゲーションの2つの重要なモジュールを統合している。
前者は時間的および視覚的にコヒーレントなテキストインスタンスをグループ化することでノイズの多い軌跡を洗練し、後者は低ランク適応強化ビジョンランゲージモデルを用いて、フレーム間の言語的文脈で視覚的手がかりを融合する。
TraRAは、テキストトラジェクトリ全体に情報を集約することで、厳しい監視条件下でも堅牢なテキスト認識を実現する。
道路と都市のシーンデータセット(RoadText, BOVText, ArTVideo, ICDAR15)を含む4つの公開ベンチマークに関する大規模な実験は、Trraが最先端のVTSメソッドよりも、トラッキングと認識のパフォーマンスを一貫して改善していることを実証している。
ソースコードはhttps://github.com/trid2912/TraRAで公開されている。
関連論文リスト
- Empower Words: DualGround for Structured Phrase and Sentence-Level Temporal Grounding [30.223279362023337]
Video Grounding(VTG)は、時間セグメントを、与えられた自然言語クエリと一致した、長い、トリミングされていないビデオにローカライズすることを目的としている。
既存のアプローチは、すべてのテキストトークンを、異なる意味的役割を無視して、クロスモーダルな注意の中で均一に扱うのが一般的である。
グローバルとローカルのセマンティクスを明確に分離するデュアルブランチアーキテクチャであるDualGroundを提案する。
論文 参考訳(メタデータ) (2025-10-23T05:53:01Z) - TGT: Text-Grounded Trajectories for Locally Controlled Video Generation [33.989722489622075]
本稿では,テキスト記述と組み合わせたトラジェクトリ上でのビデオ生成を行うフレームワークであるText-Grounded Trajectories (TGT)を紹介する。
TGTは、従来のアプローチと比較して、より高い視覚的品質、より正確なテキストアライメント、モーションコントロール性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-16T19:45:27Z) - Taming Text-to-Sounding Video Generation via Advanced Modality Condition and Interaction [28.20791917022439]
本研究は,テキスト・トゥ・サウンド・ビデオ(T2SV)生成という課題に焦点をあてる。
テキスト条件から同期された音声でビデオを生成することを目的としており、両方のモダリティがテキストに一致していることを保証する。
1)ビデオ用テキストが音声用テキストと等しい1つの共有テキストキャプションは、しばしばモーダル干渉を引き起こす。
論文 参考訳(メタデータ) (2025-10-03T15:43:56Z) - GAID: Frame-Level Gated Audio-Visual Integration with Directional Perturbation for Text-Video Retrieval [12.483734449829235]
GAIDは、テキストガイダンスの下でオーディオと視覚機能を統合するフレームワークである。
DASPは、構造を意識した摂動をテキスト埋め込みに注入し、マルチパス推論を発生させることなく、堅牢性と差別性を高める。
MSR-VTT, DiDeMo, LSMDC, VATEXによる実験では, 顕著な効率向上が得られた。
論文 参考訳(メタデータ) (2025-08-03T10:44:24Z) - Video-Level Language-Driven Video-Based Visible-Infrared Person Re-Identification [47.40091830500585]
Visible-based Infrared Person Re-Identification (VVIReID) は、モダリティ内のシーケンスレベルの特徴を抽出することによって、歩行者のシーケンスをモダリティにわたってマッチングすることを目的としている。
ビデオレベル言語駆動型VVI-ReID(VLD)フレームワークは、イモダリティ言語(IMLP)と時空間アグリゲーションという2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2025-06-03T04:49:08Z) - SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by
Visual-Textual Contrastive Learning [51.800031281177105]
SignVTCLは、視覚・テキストのコントラスト学習によって強化された連続手話認識フレームワークである。
マルチモーダルデータ(ビデオ、キーポイント、光学フロー)を同時に統合し、統一された視覚バックボーンをトレーニングする。
従来の方法と比較して最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-01-22T11:04:55Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - End-to-End Video Text Spotting with Transformer [86.46724646835627]
我々は、シンプルだが効果的なビデオテキスト検出・追跡・認識フレームワーク(TransDETR)を提案する。
TransDETRは、最初のエンドツーエンドのトレーニング可能なビデオテキストスポッティングフレームワークであり、3つのサブタスク(テキスト検出、追跡、認識など)を同時に扱う。
論文 参考訳(メタデータ) (2022-03-20T12:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。