論文の概要: APT: Atomic Physical Transitions for Causal Video-Language Understanding
- arxiv url: http://arxiv.org/abs/2606.18586v1
- Date: Wed, 17 Jun 2026 01:26:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.952837
- Title: APT: Atomic Physical Transitions for Causal Video-Language Understanding
- Title(参考訳): APT:Causal Video-Language Understandingのための原子物理遷移
- Authors: Shang Wu, Haoran Lu, Songling Liu, Chenwei Xu, Lie Lu, Pranav Maneriker, Fan Du, Manling Li, Zhaoran Wang, Han Liu,
- Abstract要約: 物理的事象は名前だけでは理解されず、それらを構成する因果状態の変化によって理解される。
バウンス"のようなクリップレベルのラベルは、イベントを物理的に有効にするプロセスを隠しながら修正することができる。
可視光キューをアクティブな物理機構に結合する最小限の時間的局所状態変化である原子物理遷移(APTs)を導入する。
- 参考スコア(独自算出の注目度): 41.08551060473405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Physical events are not understood by their names alone, but by the causal state changes that compose them. A clip-level label such as "bounce" can be correct while hiding the process that makes the event physically valid, from support loss and contact onset to rebound and settling. To make this hidden process explicit, we introduce Atomic Physical Transitions (APTs): minimal, temporally localized state changes that bind a visible cue to an active physical mechanism and before/after dynamical regimes. An APT chain represents a video as an ordered causal transition sequence rather than a single aggregate event label: event labels tell what happened; APT chains explain why it happened. To make APTs learnable by VLMs, we construct mixed-source APT data from human annotations and simulator ground truth, covering 14 transition types across contact, gravity, friction, and rotation/stability, with 27,303 timed instances over 1,246 trials. Using this data, we find that current VLMs miss transition-level physics, with zero-shot recall at most 14% and errors dominated by missed transitions. Direct fine-tuning on APT chains improves transition detection but causes event-level forgetting, indicating that the model learns a specialized answer format rather than a reusable physical representation. We therefore propose APT-Tune, a parameter-efficient recipe that teaches VLMs to use causal transitions without forgetting how to answer video questions. It combines image-pad-aware supervision, format-conditional co-training, and mechanism-conditioned domain-to-type decoding to make APT learning format-robust and physically grounded. With only 11 M LoRA parameters on Qwen3-VL-2B, APT-Tune substantially improves APT recall while also improving event-level video transfer. These results show that APTs are not a new answer format, but a human-aligned causal supervision signal for physical video understanding.
- Abstract(参考訳): 物理的事象は名前だけでは理解されず、それらを構成する因果状態の変化によって理解される。
バウンス」のようなクリップレベルのラベルは、サポート損失やコンタクトオンセットからリバウンドやセットに至るまで、イベントを物理的に有効にするプロセスを隠蔽しながら修正することができる。
隠れたプロセスを明確にするために、我々は原子物理遷移(APTs: Atomic Physical Transitions)を導入します。
APTチェーンは、単一の集約イベントラベルではなく、順序付けられた因果遷移シーケンスとしてビデオを表現する。
VLM で APT を学習可能にするため,1246 回の試験で27,303 件のタイムドインスタンスで,接触,重力,摩擦,回転・安定性の14 種類の遷移を網羅した,人間のアノテーションとシミュレータによる混合ソース APT データを構築した。
このデータを用いて、現在のVLMは遷移レベルの物理を見逃し、ゼロショットリコールは最大14%、エラーは遷移の欠落に支配されていることがわかった。
APTチェーンの直接微調整はトランジッション検出を改善するが、イベントレベルの忘れを生じさせ、モデルが再利用可能な物理表現ではなく、特別な回答形式を学ぶことを示す。
そこで本研究では,ビデオ質問に答える方法を忘れずに,VLMに対して因果遷移の使い方を教えるパラメータ効率のよいレシピであるAPT-Tuneを提案する。
画像パッドを意識した監視、フォーマット条件の協調訓練、および機構条件のドメイン間デコードを組み合わせることで、APT学習形式が損なわれ、物理的に座屈する。
Qwen3-VL-2B上の11のLoRAパラメータだけで、APT-TuneはAPTリコールを大幅に改善し、イベントレベルのビデオ転送も改善した。
これらの結果から,APTは新たな回答形式ではなく,物理的ビデオ理解のための人間対応因果監視信号であることが示唆された。
関連論文リスト
- TransVLM: A Vision-Language Framework and Benchmark for Detecting Any Shot Transitions [52.61846373082384]
ショットトランジション検出(STD)は本質的に複雑なトランジションに苦しむ。
本稿では,STDのためのビジョン言語モデル(VLM)フレームワークであるTransVLMを提案する。
広範囲な実験により、TransVLMは全体的な性能が優れていることが示された。
論文 参考訳(メタデータ) (2026-04-30T15:05:06Z) - Chain of Event-Centric Causal Thought for Physically Plausible Video Generation [41.53933387975629]
物理的に可塑性のビデオ生成(PPVG)は、現実世界の物理現象をモデル化するための有望な道として登場した。
現在のアプローチでは、物理概念をプロンプトに埋め込むために、大きな言語モデルの常識推論能力を活用している。
本稿では,PPVGが因果的に連結され,動的に進化する事象の系列を生成するとみなす。
論文 参考訳(メタデータ) (2026-03-10T02:13:51Z) - ArrowGEV: Grounding Events in Video via Learning the Arrow of Time [50.53601157420355]
本稿では,イベントの時間方向を明示的にモデル化する強化学習フレームワークであるArrowGEVを提案する。
時間に敏感なイベントのために、ArrowGEVはVLMに前方ビデオと後方ビデオの区別を促す報酬を導入した。
広汎な実験により、ArrowGEVは接地精度と時間方向認識を向上するだけでなく、一般的な映像理解と推論能力を向上させることが示されている。
論文 参考訳(メタデータ) (2026-01-10T13:05:23Z) - Patch-level Sounding Object Tracking for Audio-Visual Question Answering [21.32101249139122]
Patch-level Sounding Object Tracking (PSOT) 法を提案する。
視覚的な動き情報を利用して、音のある物体や疑問に関連しやすい大きな動きを持つ視覚的パッチを識別する。
提案手法の有効性を実証し,近年の大規模事前学習手法と比較しても競争性能が向上した。
論文 参考訳(メタデータ) (2024-12-14T08:34:44Z) - Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning? [92.23438255540968]
Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2024-01-23T16:48:18Z) - MERTech: Instrument Playing Technique Detection Using Self-Supervised
Pretrained Model With Multi-Task Finetuning [17.307289537499184]
本稿では,大規模未ラベル音楽データに事前学習した自己教師付き学習モデルを適用し,IPT検出タスクに微調整する。
提案手法は, フレームレベルとイベントレベルの両方のメトリクスにおいて, 複数のIMTベンチマークデータセットにおいて, 従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-15T15:00:00Z) - TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition [78.67283660198403]
テキストの不規則性は、シーンテキスト認識者に重大な課題をもたらす。
TPS++は、テキストの修正にアテンションメカニズムを組み込んだ、アテンション強化TPS変換である。
常に認識を改善し、最先端の精度を達成する。
論文 参考訳(メタデータ) (2023-05-09T10:16:43Z) - How Does In-Context Learning Help Prompt Tuning? [55.78535874154915]
微調整された大きな言語モデルは、急速に拡大するスケールのために、ますます実用的ではないものになりつつある。
これはプロンプトチューニング(PT)のようなパラメータ効率のよい適応手法の使用を動機付け、凍ったモデルに少数のチューナブルな埋め込みを追加する。
近年,Singhalら (2022) はPTとICLを組み合わせた命令プロンプトチューニング (IPT) を提案している。
論文 参考訳(メタデータ) (2023-02-22T17:45:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。