論文の概要: Gen2Balance: Generative Balancing for Long-Tailed Video Action Recognition
- arxiv url: http://arxiv.org/abs/2606.22416v1
- Date: Sun, 21 Jun 2026 10:09:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:22:46.039704
- Title: Gen2Balance: Generative Balancing for Long-Tailed Video Action Recognition
- Title(参考訳): Gen2Balance: 長距離ビデオアクション認識のための生成バランシング
- Authors: Prajwal Gatti, Simon Jenni, Fabian Caba Heilbron, Dima Damen,
- Abstract要約: 本稿では,ビデオ行動認識のための長期データトレーニングの課題に対処する。
本稿では,行動プロファイルと訓練経験に基づく多様なテキストプロンプトに基づくテキスト間生成モデルを提案する。
Gen2Balanceと呼ばれる我々の手法は、バランスの取れないトレーニングセットを、実際のビデオクリップと生成されたビデオクリップのバランスの取れた組み合わせに変換する。
- 参考スコア(独自算出の注目度): 39.564169143366236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the problem of training on long-tailed data for video action recognition. We propose to augment the training set using a text-to-video generative model, conditioned on diverse text prompts grounded in action profiles and training exemplars. Our approach, called Gen2Balance, converts an imbalanced training set into a balanced combination of real and generated video clips. To effectively learn from such data, we employ a two-stage training strategy that mitigates domain shift and yields significant improvements. We evaluate on long-tailed versions of standard benchmarks: UCF-101 (UCF-LT) and a 100-class subset of Kinetics (K100-LT) selected to prioritise temporally challenging actions. Gen2Balance improves accuracy over the strongest baselines for long-tailed learning by 5.1% and 7.0% on the respective datasets. On rare actions from the RareAct dataset (e.g., cut keyboard), Gen2Balance improves accuracy by 31.9%, demonstrating effectiveness for scarce actions. By varying the amount of synthetic data added, we show that partial balancing already achieves 79% of the performance gains at 27% of the compute cost on K100-LT, highlighting the practical scalability of Gen2Balance.
- Abstract(参考訳): 本稿では,ビデオ行動認識のための長期データトレーニングの課題に対処する。
本稿では,行動プロファイルと訓練経験に基づく多様なテキストプロンプトを条件としたテキスト・ビデオ生成モデルを用いて,トレーニングセットの強化を提案する。
Gen2Balanceと呼ばれる我々の手法は、バランスの取れないトレーニングセットを、実際のビデオクリップと生成されたビデオクリップのバランスの取れた組み合わせに変換する。
このようなデータから効果的に学習するために、ドメインシフトを緩和し、大幅な改善をもたらす2段階のトレーニング戦略を採用する。
UCF-101(UCF-LT)とK100-LT(Kinetics)の100クラスのサブセットを時間的課題に優先順位付けした。
Gen2Balanceは、長い尾の学習のための最強のベースラインに対して、各データセットで5.1%と7.0%の精度を向上する。
RareActデータセット(例:カットキーボード)からの稀なアクションでは、Gen2Balanceは精度を31.9%向上し、少ないアクションの有効性を示している。
合成データの量を変えることで、K100-LTの計算コストの27%で、すでに部分的バランスがパフォーマンスの79%を達成していることを示し、Gen2Balanceの実用的スケーラビリティを強調した。
関連論文リスト
- Cycle Training with Semi-Supervised Domain Adaptation: Bridging Accuracy and Efficiency for Real-Time Mobile Scene Detection [3.5291730624600848]
モデル性能を最適化するために,探索段階と安定化段階を交互に行う3段階のトレーニングプロセスを採用した,Cycle Trainingと呼ばれる新しいトレーニングフレームワークを提案する。
モバイルシーン検出のためのCamSSDデータセットに関する総合的な実験により、我々のフレームワークは分類精度を大幅に向上するだけでなく、リアルタイムの推論効率も向上することを示した。
論文 参考訳(メタデータ) (2025-04-12T17:42:45Z) - GDeR: Safeguarding Efficiency, Balancing, and Robustness via Prototypical Graph Pruning [44.401418612374286]
トレーニング可能なプロトタイプを用いて,プロセス中のトレーニングを更新するための新しいソフトプルーニング手法であるGDeRを導入する。
GDeRは、トレーニングサンプルの30%削減で、完全なデータセットのパフォーマンスを達成または上回る。
また、不均衡なトレーニングやノイズの多いトレーニングシナリオにおいて、最先端のプルーニング手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-17T16:56:01Z) - Omnipotent Adversarial Training in the Wild [20.239704959690936]
我々は、不均衡でノイズの多いデータセット上でモデルをトレーニングするためのOmniversapotent Adrial Training (OAT)戦略を提案する。
OATはトレーニングセットの不完全性に対処する2つの革新的な方法論で構成されている。
OATは他のベースラインを20%以上のクリーンな精度改善と10%の堅牢な精度改善で上回る。
論文 参考訳(メタデータ) (2023-07-14T07:09:57Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Getting More Juice Out of Your Data: Hard Pair Refinement Enhances Visual-Language Models Without Extra Data [122.282521548393]
コントラスト言語-画像事前学習 (CLIP) は, クロスモーダルな画像-テキスト表現学習の標準となっている。
HELIPは、CLIPモデルを改善するためのコスト効率のよい戦略であり、継続的なトレーニングにおいて既存のデータセット内の挑戦的なテキストイメージペアを利用することで、CLIPモデルを改善する。
論文 参考訳(メタデータ) (2023-05-09T07:00:17Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Distributed Evolution Strategies Using TPUs for Meta-Learning [0.0]
本稿では,処理ユニット(TPU)を用いた分散進化的メタラーニング戦略を提案する。
Omniglotデータセットの進化戦略を訓練したプロトタイプネットワークを用いて、5ショットの分類問題に対して98.4%の精度を達成した。
我々のアルゴリズムは、勾配を計算するために自動微分よりも最大40分の1のメモリを使用しており、その結果、バックプロパゲーション訓練された等価値の1.3%以内の精度が得られた。
論文 参考訳(メタデータ) (2022-01-01T02:14:02Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。