Fugu-MT 論文翻訳(概要): OrthoMotion:Disentangling Camera and Subject Motion via Geometry Semantics Orthogonal Attention

論文の概要: OrthoMotion:Disentangling Camera and Subject Motion via Geometry Semantics Orthogonal Attention

arxiv url: http://arxiv.org/abs/2606.22835v1
Date: Mon, 22 Jun 2026 04:15:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 04:18:17.448425
Title: OrthoMotion:Disentangling Camera and Subject Motion via Geometry Semantics Orthogonal Attention
Title（参考訳）: OrthoMotion:Geometry Semantics Orthogonal Attentionによるカメラと被写体の動きの識別
Authors: Zijie Meng,
Abstract要約: 制御可能なビデオ生成は、カメラと被写体の独立的なコマンドを要求する。 OrthoMotionは、カメラの動きを幾何学的チャネル、回転位置埋め込み(RoPE)フェーズの標準保存回転、主題の動きを意味的なチャネルにルーティングする。私たちの知る限りでは、OrthoMotionは建設による混乱を保証する最初の方法です。
参考スコア（独自算出の注目度）: 0.4790056963046066
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controllable video generation demands independent command of the camera and the subject, yet 2D conditioning entangles them: camera- and object-induced optical flow share the same inverse-depth (1/Z) scaling and cannot be separated from image evidence alone. We first prove that this entanglement is representational, not architectural -- the 2D camera/object split is a non-identifiable inverse problem -- and therefore reframe decoupling as a question of operator design. We resolve it at the level of the attention operator. OrthoMotion routes camera motion into a geometric channel, a norm-preserving rotation of the rotary position embedding (RoPE) phase, and subject motion into a semantic channel, a gated value injection in cross-attention. Because these sub-operators are algebraically complementary -- a rotation versus a translation of the affine action on tokens -- a lightweight decoupling regularizer provably drives their response subspaces to orthogonality, so the two controls stop interfering. To our knowledge OrthoMotion is the first method to guarantee disentanglement by construction rather than hope for it to emerge. It attains state-of-the-art camera and subject accuracy at once while minimizing cross-talk, which we quantify with a new Cross-Talk Error (CTE) metric, cutting cross-talk by more than 2.4x with no loss in fidelity and generalizing across backbones.
Abstract（参考訳）: カメラとオブジェクトによって誘導される光の流れは同じ逆深度(1/Z)のスケーリングを共有しており、画像証拠だけでは分離できない。まず、この絡み合いはアーキテクチャではなく表現的であることを証明します -- 2次元カメラ/オブジェクト分割は識別不可能な逆問題です。我々は注意オペレーターのレベルでそれを解決する。 OrthoMotionは、カメラの動きを幾何学的チャネル、回転位置埋め込み(RoPE)フェーズのノルム保存回転、主題の動きを意味的なチャネルに誘導する。これらの部分演算子は代数的に相補的であり、トークン上のアフィン作用の変換と回転であるので、軽量な疎結合正規化器は応答部分空間を直交性に確実に駆動するので、2つの制御は干渉を停止する。私たちの知る限りでは、OrthoMotionは建設による混乱を保証する最初の方法です。クロストークを最小化しながら、最先端のカメラと被写体精度を同時に達成し、新しいクロストークエラー(CTE)メトリックと定量化し、クロストークを2.4倍以上カットし、忠実度を損なわず、バックボーンをまたいで一般化する。

関連論文リスト

MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons [56.68975315643491]
本稿では,ビデオ・ツー・ローテーションとビデオ・ツー・ローテーションを共同で学習し,最適化する,最初のエンドツーエンドフレームワークを提案する。本手法は, メッシュベースパイプラインの20倍の速度で, 回転誤差を17度から10度, 見えない骨格では6.54度に低減する。
論文参考訳（メタデータ） (2026-04-30T17:16:38Z)
FLIGHT: Fibonacci Lattice-based Inference for Geometric Heading in real-Time [7.517221623631364]
単眼ビデオからカメラの動きを推定することはコンピュータビジョンの基本的な問題である。既知の回転の下でカメラの向きを回復する既存の方法は、低ノイズ、低出力条件でよく機能する傾向にある。本稿では,カメラの向きを推定するために,単位球面上のハフ変換の新たな一般化を提案する。
論文参考訳（メタデータ） (2026-02-26T15:27:49Z)
DualCamCtrl: Dual-Branch Diffusion Model for Geometry-Aware Camera-Controlled Video Generation [51.66285725139235]
カメラ制御ビデオ生成のための新しいエンドツーエンド拡散モデルであるDualCamCtrlを提案する。本稿では、カメラ一貫性のあるRGBと深度シーケンスを相互に生成するデュアルブランチフレームワークを提案する。 DualCamCtrlは、より一貫したカメラ制御ビデオ生成を実現する。
論文参考訳（メタデータ） (2025-11-28T12:19:57Z)
Look Before You Fuse: 2D-Guided Cross-Modal Alignment for Robust 3D Detection [7.448164560761331]
既存の手法は、LiDARとカメラの特徴の空間的ずれに悩まされている。このミスアライメントの根本原因は、キャリブレーションの不正確さとローリングシャッター効果から生じるプロジェクションエラーにある。本稿では,PGDCからの残留雑音を抑えるために不連続認識幾何融合を導入し,背景境界における鋭い深度遷移を明示的に促進する。提案手法は,mAPとNDSをそれぞれ71.5%,73.6%としたnuScenes検証データセット上でのSOTA性能を実現する。
論文参考訳（メタデータ） (2025-07-21T18:12:22Z)
Single-Scanline Relative Pose Estimation for Rolling Shutter Cameras [56.39904484784127]
本稿では,ラインプロジェクションの交差点と1枚の走査線を用いて,ローリングシャッターカメラ間の相対的なポーズを推定する手法を提案する。あるいは、単一の画像内でスキャニングラインを選択することができ、ローリングシャッターカメラのスキャニングラインに対するシングルビュー相対ポーズ推定を可能にする。
論文参考訳（メタデータ） (2025-06-27T10:00:21Z)
3D Trajectory Reconstruction of Moving Points Based on Asynchronous Cameras [6.9017898687323775]
移動目標の局所化は、その運動特性と動特性を分析するために重要である。本稿では,非同期カメラを用いた3次元軌道再構成手法を提案する。
論文参考訳（メタデータ） (2025-05-31T13:04:31Z)
DFR: Depth from Rotation by Uncalibrated Image Rectification with Latitudinal Motion Assumption [6.369764116066747]
そこで我々は,非校正回転カメラのための新しい画像補正ソリューションDfRを提案する。具体的には、カメラが一定の緯度で球上で回転するときに回転するカメラの動きをモデル化する。 2点解析解法は2つの画像の修正変換を直接計算することから導かれる。
論文参考訳（メタデータ） (2023-07-11T09:11:22Z)
Attentive and Contrastive Learning for Joint Depth and Motion Field Estimation [76.58256020932312]
単眼視システムからシーンの3次元構造とともにカメラの動きを推定することは複雑な作業である。モノクロ映像からの3次元物体運動場推定のための自己教師付き学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-10-13T16:45:01Z)
Do Generative Models Know Disentanglement? Contrastive Learning is All You Need [59.033559925639075]
本論文では,変数空間におけるコントラスト(DisCo)による非監視的,モデル非依存的手法を提案する。 DisCoは、GAN、VAE、およびフローを含む、事前訓練された非解離生成モデルに与えられた最先端の解離を達成します。
論文参考訳（メタデータ） (2021-02-21T08:01:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。