論文の概要: BioVid: Autoregressive Video Generation with Biological Behavior Semantic Comprehension
- arxiv url: http://arxiv.org/abs/2606.08674v2
- Date: Tue, 09 Jun 2026 14:14:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 13:21:50.727394
- Title: BioVid: Autoregressive Video Generation with Biological Behavior Semantic Comprehension
- Title(参考訳): BioVid: 生体行動セマンティック理解による自己回帰ビデオ生成
- Authors: Tsung-Wei Pan, Jung-Hua Wang,
- Abstract要約: BioVidはデータ駆動型自動回帰ビデオ生成フレームワークである。
トレーニングデータから直接生物学的行動の時間構造を学習する。
Wasserstein-1 距離 1.24 である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video generation frameworks treat sequence duration as an externally prescribed parameter -- fixed frame counts or text prompts -- producing clips whose temporal boundaries are decoupled from the statistical structure of real behavioral data. This assumption is fundamentally misaligned with biological behavior, where action duration varies naturally across individuals and instances and is encoded in the data itself. We present BioVid, a data-driven autoregressive video generation framework that learns the temporal structure of biological behaviors directly from training data, including their natural length distributions. In the first stage, a Finite Scalar Quantization GAN (FSQ-R3GAN) tokenizer encodes each video frame into a compact discrete representation, combining the stabilized relativistic training objective of R3GAN with FSQ's guaranteed codebook utilization to achieve high-fidelity spatial reconstruction without codebook collapse. In the second stage, a causal Transformer models the resulting token sequences autoregressively and learns to emit an End-of-Sequence (EOS) token when the behavioral event reaches semantic closure, with the termination distribution emerging naturally from the training data rather than any human-specified constraint. Experiments on a human drinking behavior dataset (NTU RGB+D, A001, n=94) demonstrate that BioVid's generated length distribution closely matches that of held-out test data, achieving a Wasserstein-1 distance of 1.24 against the ground truth -- compared to 6.05 for a fixed-length baseline and 15.48 for VideoGPT -- while maintaining competitive spatial fidelity.
- Abstract(参考訳): 既存のビデオ生成フレームワークは、シーケンス期間を外部に所定のパラメータとして扱う(固定フレーム数またはテキストプロンプト)。
この仮定は、行動の持続時間が個人やインスタンスによって自然に変化し、データ自体にエンコードされる生物学的行動と基本的には一致しない。
本稿では,データ駆動型自己回帰ビデオ生成フレームワークであるBioVidについて紹介する。
第1段階では、Finite Scalar Quantization GAN(FSQ-R3GAN)トークン化器が各ビデオフレームをコンパクトな離散表現に符号化し、R3GANの安定化相対論的トレーニング目標とFSQの保証されたコードブック利用とを組み合わせて、コードブックの崩壊なしに高忠実な空間再構成を実現する。
第2段階では、因果変換器は、結果のトークンシーケンスを自己回帰的にモデル化し、動作イベントがセマンティッククロージャに達するとエンド・オブ・シーケンス(EOS)トークンを出力することを学ぶ。
人間の飲酒行動データセット(NTU RGB+D, A001, n=94)の実験では、BioVidの生成した長さ分布が保持されたテストデータと密接に一致し、Wasserstein-1距離が1.24で、固定長のベースラインが6.05でビデオGPTが15.48で、競合空間の忠実性を維持している。
関連論文リスト
- Physics from Video: Identifiability of Time-Invariant Second-Order ODEs under Minimal Trajectory Conditions [60.2784641643737]
ビジュアルリアリズムと物理的な理解のギャップを埋めることは、ビデオベースの世界モデルにとって重要な課題である。
原画素からの連続時間物理法則の構造識別可能性について検討した。
レベルセットの傾斜被覆条件は、学習された潜伏空間が真の物理的状態に局所的に親和的であることを証明する。
論文 参考訳(メタデータ) (2026-05-27T13:22:29Z) - TIE: Time Interval Encoding for Video Generation over Events [50.66585165263848]
ディレクタースタイルのプロンプト、ロボットアクション予測、インタラクティブなビデオエージェントは、同時イベントに対する時間的根拠を要求する。
現代のビデオジェネレータは、ポイントワイドな位置エンコーディングを通して、タイムを離散的なポイントとして表現する。
Time Interval TIEは、プラグイン・アンド・プレイ・インターバル・アウェアの一般化である。
論文 参考訳(メタデータ) (2026-05-11T13:23:14Z) - From Synchrony to Sequence: Exo-to-Ego Generation via Interpolation [54.68405211129937]
Exo-Seqto-Egoビデオ生成は、同期された3人称と対応するカメラポーズから1人称ビューを合成することを目的としている。
同期されたExo-egoデータは本質的に時間的不連続を導入し、標準ビデオ生成ベンチマークのスムーズな動作仮定に違反する。
我々は、ソースとターゲットビデオの間に補間して単一の連続信号を形成するシーケンシャルシーケンスモデルであるSyn2Ex-Forcingを提案する。
論文 参考訳(メタデータ) (2026-04-15T12:32:25Z) - Synthetic Tabular Generators Fail to Preserve Behavioral Fraud Patterns: A Benchmark on Temporal, Velocity, and Multi-Account Signals [0.0]
本研究では,4つの行動不正パターン(P1-P4)の分類法を定式化し,事象間タイミング,バースト構造,マルチアカウントグラフモチーフ,速度ルールトリガ率について検討した。
我々は、IEEE-CIS Fraud DetectionとAmazon FraudデータセットでCTGAN、TVAE、GaussianCopula、TabularARGNをベンチマークした。
P1-P4フレームワークは、医療やネットワークセキュリティを含む、エンティティレベルのシーケンシャルデータを持つ任意のドメインに拡張する。
論文 参考訳(メタデータ) (2026-04-13T19:36:00Z) - From Frames to Sequences: Temporally Consistent Human-Centric Dense Prediction [22.291273919939957]
我々は、人間のフレームと、画素精度の深度、正常度、マスクを用いた動き整列を生成するスケーラブルな合成データパイプラインを開発した。
我々は、CSE埋め込みを介して、明示的な幾何学的人体を注入する統合されたViTベースの密度予測器を訓練する。
静的プレトレーニングと動的シーケンス監視を組み合わせた2段階のトレーニング戦略により、まず、ロバストな空間表現を取得し、その後、動きに沿ったシーケンス間で時間的一貫性を洗練できる。
論文 参考訳(メタデータ) (2026-02-02T05:28:58Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - A Unified Framework for Event-based Frame Interpolation with Ad-hoc Deblurring in the Wild [72.0226493284814]
本稿では,デブロリングアドホックを行うイベントベースフレームの統一フレームワークを提案する。
我々のネットワークは、フレーム上の従来の最先端の手法、単一画像のデブロアリング、および両者のジョイントタスクを一貫して上回ります。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。