論文の概要: Hierarchical GRU with Input-Conditioned Slot Queries for Ball Action Anticipation
- arxiv url: http://arxiv.org/abs/2606.14730v1
- Date: Tue, 02 Jun 2026 03:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-21 20:00:42.752517
- Title: Hierarchical GRU with Input-Conditioned Slot Queries for Ball Action Anticipation
- Title(参考訳): ボールアクション予測のための入力整合スロットクエリ付き階層型GRU
- Authors: Parthsarthi Rawat,
- Abstract要約: フットボール放送ビデオにおいて,ボールアクション予測のための階層モデルを提案する。
このシステムは、次の5秒のウィンドウで発生したアクションを10クラスにわたって予測する。
SoccerNet Ball Action Precipationベンチマークでは,テストサーバ上で17.91%のmAPを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a hierarchical model for ball action anticipation in football broadcast video. Given a 30-second observation window, the system predicts actions occurring in the subsequent 5-second window across 10 classes. A shared local Transformer encodes clip-level features within each 5-second sub-window; a GRU then aggregates temporal context across all sub-windows; finally, a Transformer decoder with K input-conditioned event slots decodes the anticipation target via three decoupled heads (objectness, class, temporal offset). We introduce frequency-reweighted Hungarian matching that systematically favours rare action classes, and Gaussian soft targets for temporal bin supervision. On the SoccerNet Ball Action Anticipation benchmark, our method achieves 17.91% mAP on the test server.
- Abstract(参考訳): フットボール放送ビデオにおいて,ボールアクション予測のための階層モデルを提案する。
30秒の観察ウィンドウが与えられたら、システムは次の5秒のウィンドウで発生したアクションを10クラスにわたって予測する。
共有ローカルトランスフォーマーは、各5秒のサブウィンドウ内でクリップレベルの機能をエンコードし、GRUは、すべてのサブウィンドウに時間的コンテキストを集約し、最後に、入力条件付きイベントスロットを持つトランスフォーマーデコーダは、3つの分離されたヘッド(オブジェクト、クラス、時間的オフセット)を介して予測ターゲットをデコードする。
我々は,レアアクションクラスを体系的に好む周波数重み付けハンガリーマッチングと,時間的ビン管理のためのガウスソフトターゲットを導入する。
SoccerNet Ball Action Precipationベンチマークでは,テストサーバ上で17.91%のmAPを達成した。
関連論文リスト
- See, Infer, Intervene: Proactive World Modeling for Goal-Oriented Social Intelligence [13.373500277660959]
マルチモーダル小売業者は、顧客が何をしているかを認識するだけでなく、明示的な要求がなされる前に支援するかどうかを判断する必要がある。
本稿では、See-Infer-Intervene(SII)フレームワークを用いて、この設定について検討する。
我々は、AIDA(Attention, Interest, Desire, Action)購入フェーズとBDI(Belief, desire, intention)心理学領域を持つ顧客状態を表すPIWM(Proactive Intent World Model)を用いてSIIをインスタンス化する。
論文 参考訳(メタデータ) (2026-06-02T09:18:39Z) - HOI-aware Adaptive Network for Weakly-supervised Action Segmentation [64.63922024617493]
AdaAct と呼ばれる HOI 対応ネットワークを提案する。
我々は、時間的大局的だが空間的局所的な人間-物体相互作用(HOI)をアクションセグメンテーションのためのビデオレベルの事前知識として活用する。
論文 参考訳(メタデータ) (2026-04-29T02:11:51Z) - From Frames to Events: Rethinking Evaluation in Human-Centric Video Anomaly Detection [9.404376027901277]
ポースベースのビデオ異常検出(VAD)は、プライバシー保護の性質と環境変動に対する堅牢性において大きな注目を集めている。
従来のフレームレベルの評価では、ビデオは孤立したフレームの集合として扱われ、現実の世界で異常がどのように現れ、行動するかを根本的に誤解している。
本稿では,階層的なガウススムースメントと適応二項化を備えたスコアリファインメントパイプラインと,イベントレベルの検出を直接生成するエンドツーエンドのデュアルブランチモデルという,時間的イベントローカライゼーションのための2つの戦略を紹介する。
論文 参考訳(メタデータ) (2026-04-10T13:52:18Z) - From Play to Replay: Composed Video Retrieval for Temporally Fine-Grained Videos [48.666667545084835]
Composed Video Retrieval(CoVR)は、クエリビデオと、意図した変更を記述した修正テキストが与えられたターゲットビデオを取得する。
TF-CoVRは、時間的にきめ細かなCoVRに特化した最初の大規模ベンチマークである。
TF-CoVRは体操とダイビングに重点を置いており、FinGymとFineDivingから180Kのトリプルを提供している。
論文 参考訳(メタデータ) (2025-06-05T17:31:17Z) - Temporal Context Consistency Above All: Enhancing Long-Term Anticipation by Learning and Enforcing Temporal Constraints [4.880243880711163]
本稿では,初期未トリミング映像区間の観察から,動画中の動作ラベルとその持続時間を予測する手法を提案する。
並列デコーディングを備えたエンコーダ・デコーダアーキテクチャ上に構築し,2つの重要なコントリビューションを行う。
LTA,EpicKitchen-55,EGTEA+,50Salads,Breakfastの4つのベンチマークデータセットに対して,本手法の有効性を検証する。
論文 参考訳(メタデータ) (2024-12-27T03:29:10Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Anticipative Video Transformer [105.20878510342551]
Precipative Video Transformer (AVT) は、エンド・ツー・エンドの注意に基づくビデオモデリングアーキテクチャである。
我々は,連続した将来のフレームの特徴を予測可能なフレーム特徴エンコーダを学習しながら,ビデオシーケンスにおける次のアクションを予測するためにモデルを共同で訓練する。
論文 参考訳(メタデータ) (2021-06-03T17:57:55Z) - RMS-Net: Regression and Masking for Soccer Event Spotting [52.742046866220484]
イベントラベルとその時間的オフセットを同時に予測できる,軽量でモジュール化されたアクションスポッティングネットワークを開発した。
SoccerNetデータセットでテストし、標準機能を使用して、完全な提案は3平均mAPポイントで現在の状態を超えます。
論文 参考訳(メタデータ) (2021-02-15T16:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。