Fugu-MT 論文翻訳(概要): Video2Code: Generating Interactive Webpages from UI Videos via Action-Aware Revisit

論文の概要: Video2Code: Generating Interactive Webpages from UI Videos via Action-Aware Revisit

arxiv url: http://arxiv.org/abs/2606.20711v1
Date: Tue, 16 Jun 2026 11:40:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 15:51:44.078449
Title: Video2Code: Generating Interactive Webpages from UI Videos via Action-Aware Revisit
Title（参考訳）: Video2Code:Action-Aware Revisitを通じてUIビデオからインタラクティブなWebページを生成する
Authors: Mingde Xu, Zhen Yang, Yan Wang, Yu Wang, Xijun Liu, Zijun Dou, Wenyi Hong, Xiaotao Gu, Bin Xu, Jie Tang,
Abstract要約: 我々は、実行可能なUI状態遷移を回復するためのアクション対応ビデオ・ツー・コード・アプローチであるVideo2Codeを紹介した。 Video2CodeはUIビデオ・コード生成の基盤となるオープンソースモデルを大幅に強化する。
参考スコア（独自算出の注目度）: 29.235206428769505
License: http://creativecommons.org/licenses/by/4.0/
Abstract: UI videos provide a natural input for generating interactive webpages, as they capture both webpage appearance and action-triggered state transitions. However, directly applying video-capable vision-language models to this task remains insufficient. Existing models typically rely on sparse sampling or compressed temporal representations, which may miss short action boundaries and break the state-action-state transitions needed to implement webpage behavior. We formulate UI video-to-code generation as executable state-transition recovery from interaction videos, and identify this failure mode as state-transition misalignment. We introduce Video2Code, an action-aware video-to-code approach for recovering executable UI state transitions. Rather than allocating the visual budget uniformly across the video, Video2Code first performs coarse video understanding to locate action-critical regions, then invokes a temporal clipping tool to revisit these regions at higher temporal resolution before generating HTML/CSS/JavaScript code. We instantiate Video2Code with action-aligned video-code supervision and evaluate it under both visual and functional criteria. Experiments show that Video2Code substantially strengthens the underlying open-source model for UI video-to-code generation, improving functional correctness over direct video observation, especially on dense multi-step interactions.
Abstract（参考訳）: UIビデオは、インタラクティブなWebページを生成する自然な入力を提供し、Webページの外観とアクショントリガーによる状態遷移の両方をキャプチャする。しかし、このタスクにビデオ対応の視覚言語モデルを直接適用するには不十分である。既存のモデルは、通常、スパースサンプリングや圧縮された時間表現に依存し、短いアクション境界を見逃し、Webページの振る舞いを実装するのに必要な状態と状態の遷移を壊す可能性がある。インタラクションビデオからの状態遷移回復が可能なUIビデオ・コード生成を定式化し、この障害モードを状態遷移誤調整とみなす。我々は、実行可能なUI状態遷移を回復するためのアクション対応ビデオ・ツー・コード・アプローチであるVideo2Codeを紹介した。 Video2Codeは、ビデオ全体にわたって視覚的予算を均一に割り当てるのではなく、まずアクションクリティカルな領域を見つけるために粗いビデオ理解を行い、その後、時間的クリッピングツールを呼び出して、HTML/CSS/JavaScriptコードを生成する前に、これらの領域を高い時間的解像度で再検討する。アクション・アライン・ビデオ・コードによる監視でVideo2Codeをインスタンス化し,視覚的基準と機能的基準の両方で評価する。実験によると、Video2CodeはUIビデオ・コード生成の基盤となるオープンソースモデルを大幅に強化し、特に密集したマルチステップインタラクションにおいて直接ビデオ観察よりも機能的正しさを向上させる。

関連論文リスト

Vectorized Video Representation with Easy Editing via Hierarchical Spatio-Temporally Consistent Proxy Embedding [45.593989778240655]
提案した表現はより少ないパラメータで高い映像再構成精度を実現する。複雑なビデオ処理タスクをサポートし、ビデオのインペイントや時間的に一貫したビデオ編集を行う。
論文参考訳（メタデータ） (2025-10-14T08:05:30Z)
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [55.08100087149101]
単一の入力ビデオから同期化されたマルチビュービデオを生成するための統合フレームワークであるReangle-A-Videoを紹介する。提案手法は,多視点映像生成タスクをビデオ間翻訳として再設計し,公開画像とビデオ拡散先行情報を活用する。
論文参考訳（メタデータ） (2025-03-12T08:26:15Z)
VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control [66.66226299852559]
VideoAnydoorは、高忠実度ディテール保存と正確なモーションコントロールを備えたゼロショットビデオオブジェクト挿入フレームワークである。詳細な外観を保ちながら、微粒な動き制御をサポートするため、我々は画素ワーパーを設計する。
論文参考訳（メタデータ） (2025-01-02T18:59:54Z)
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-11T17:46:28Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)
Video Event Restoration Based on Keyframes for Video Anomaly Detection [9.18057851239942]
既存のディープニューラルネットワークベースの異常検出(VAD)手法は、主にフレーム再構成やフレーム予測の経路に従う。これらの制限を突破するために、新しいVADパラダイムを導入します。本稿では,ビデオイベント復元のためのU字型スイニングトランスフォーマーネットワーク (USTN-DSC) を提案する。
論文参考訳（メタデータ） (2023-04-11T10:13:19Z)
End-to-End Dense Video Captioning with Parallel Decoding [53.34238344647624]
パラレルデコーディング(PDVC)を用いたエンドツーエンドの高精細動画キャプションのための簡易かつ効果的なフレームワークを提案する。 PDVCは、ビデオをビデオの内容の全体的理解の下で、正確にいくつかのイベントに分類する。 ActivityNet CaptionsとYouCook2の実験は、PDVCが高品質なキャプション結果を生成することができることを示している。
論文参考訳（メタデータ） (2021-08-17T17:39:15Z)
Activity Graph Transformer for Temporal Action Localization [41.69734359113706]
時間的行動のローカリゼーションのためのエンドツーエンド学習可能なモデルであるActivity Graph Transformerを紹介します。本研究では,この非線形時間構造を,映像を非連続実体としてグラフの形で推論することによって捉える。その結果,提案したモデルが最新技術より相当なマージンで上回ることが示された。
論文参考訳（メタデータ） (2021-01-21T10:42:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。