Fugu-MT 論文翻訳(概要): Learning Stable Canonical Worlds for Novel View Synthesis and Beyond

論文の概要: Learning Stable Canonical Worlds for Novel View Synthesis and Beyond

arxiv url: http://arxiv.org/abs/2606.23027v1
Date: Mon, 22 Jun 2026 08:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 00:39:07.847758
Title: Learning Stable Canonical Worlds for Novel View Synthesis and Beyond
Title（参考訳）: 新しい視点合成のための安定なカノニカルワールドの学習
Authors: Xiaoyu Xu, Jian Zou, Sheyang Tang, Zhihua Wang, Jing Liao, Kede Ma,
Abstract要約: 乱雑な多視点観測を安定したシーン中心の表現にマッピングするフィードフォワードパイプラインであるCanonicalGSを紹介した。新規なビューを合成するためのピーク信号対雑音比が2.5ドル向上し、セマンティックセグメンテーションの精度が11%向上した。
参考スコア（独自算出の注目度）: 41.43385168675424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Feed-forward Gaussian splatting (FFGS) facilitates real-time novel view synthesis, yet current methods often remain tied to view-dependent predictions. As more input views are added, they may accumulate noisy or redundant evidence instead of converging to a stable scene representation. In this paper, we introduce CanonicalGS, a feed-forward pipeline that maps cluttered multi-view observations into a stable, scene-centric representation. CanonicalGS first extracts view-centric evidence from depth, semantic features, and uncertainty estimates, and then aggregates this evidence in a canonical latent world using uncertainty-aware fusion. By emphasizing reliable observations while suppressing uncertain or redundant ones, CanonicalGS produces representations that scale more effectively for novel view synthesis and transfer to downstream visual perception tasks. Experiments show up to a $2.5$ dB improvement in peak signal-to-noise ratio for synthesizing novel views and an $11\%$ gain in semantic segmentation accuracy.
Abstract（参考訳）: フィードフォワードガウススプラッティング(FFGS)は、リアルタイムなビュー合成を促進するが、現在の手法はビューに依存した予測に結びついていることが多い。より多くのインプットビューを追加すると、安定したシーン表現に収束するのではなく、ノイズや冗長なエビデンスを蓄積する可能性がある。本稿では,マルチビュー観測を安定なシーン中心の表現にマッピングするフィードフォワードパイプラインであるCanonicalGSを紹介する。 CanonicalGSはまず、深さ、意味的特徴、不確実性の推定からビュー中心のエビデンスを抽出し、不確実性を認識した融合を用いて、このエビデンスを正準潜在世界に集約する。信頼性のある観察を強調し、不確実性や冗長性を抑えながら強調することにより、CanonicalGSは、新しいビューの合成や下流の視覚知覚タスクへの転送のためにより効果的にスケールする表現を生成する。実験では、新しいビューを合成するためのピーク信号と雑音の比率が2.5ドルのdB改善され、セマンティックセグメンテーションの精度が111\%向上した。

関連論文リスト

ST-DiffEye: Diffusion-based Continuous Gaze Generation via Joint Scanpath-Trajectory Modeling [36.51837241351688]
視覚刺激を観察しながら視線パターンを生成することを目的とした人間の視線モデリングの課題について検討する。視線は視聴者やトライアルによって大きく異なるため、この可変性はノイズやモデル視線を生成過程としてではなく、定義特性として扱う。本稿では,ST-DiffEyeについて紹介する。ST-DiffEyeは,両モードを付加的な生入力チャネルとして結合することで,両モードを結合する共振器拡散フレームワークである。
論文参考訳（メタデータ） (2026-06-13T21:56:08Z)
Hierarchical Visual Relocalization with Nearest View Synthesis from Feature Gaussian Splatting [10.178028085803833]
視覚的再ローカライゼーションは3Dコンピュータビジョンの分野における基本的な課題であり、これまで知られていたシーンを再検討する際にカメラのポーズを推定する。 SplatHLocは,特徴ガウススプラッティングをシーン表現として用いた,新しい階層的視覚的再局在化フレームワークである。我々は,SplatHLocが視覚的再局在の堅牢性を高め,新しい最先端技術を確立していることを示す。
論文参考訳（メタデータ） (2026-03-31T02:51:14Z)
GeodesicNVS: Probability Density Geodesic Flow Matching for Novel View Synthesis [54.39598154430305]
本稿では,ペアビュー間の決定論的変換を直接学習するデータ間フローマッチングフレームワークを提案する。 PDG-FMは、事前訓練された拡散モデルの確率密度測定値から導かれる測地的補間剤を用いて流れの軌跡を制約する。これらの結果は、一貫した新しいビュー生成のための決定論的フローマッチングにデータ依存の幾何正規化を組み込むことの利点を強調している。
論文参考訳（メタデータ） (2026-03-01T09:30:11Z)
OracleGS: Grounding Generative Priors for Sparse-View Gaussian Splatting [78.70702961852119]
OracleGSは、Gaussian Splattingのスパースビューのために、生成的完全性と回帰的忠実性を調整している。提案手法は,多視点幾何学的証拠に先立って強力な生成条件を定め,幻覚的アーティファクトをフィルタリングし,非拘束領域における可塑性完備を保存している。
論文参考訳（メタデータ） (2025-09-27T11:19:32Z)
Shaking to Reveal: Perturbation-Based Detection of LLM Hallucinations [25.18901449626428]
自己評価として知られる幻覚を検出するための広く採用されている戦略は、その答えの事実的正確さを推定するために、モデル自身の出力信頼度に依存する。中間表現における摂動感度を解析することにより自己評価を改善する新しいフレームワークSSPを提案する。 SSPは幻覚検出ベンチマークの範囲で先行手法を著しく上回っている。
論文参考訳（メタデータ） (2025-06-03T09:44:28Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文参考訳（メタデータ） (2025-02-25T14:04:22Z)
Crop Classification under Varying Cloud Cover with Neural Ordinary Differential Equations [23.93148719731374]
作物分類の最先端の手法は、観測間の時間間隔を暗黙的に仮定する手法に依存している。本稿では,ニューラル常微分方程式 (NODE) とリカレントニューラルネットワーク (RNN) を組み合わせることで,不規則に空間化された画像列における作物の種類を分類することを提案する。
論文参考訳（メタデータ） (2020-12-04T11:56:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。