論文の概要: Trajectory Forcing: Structure-First Generation with Controllable Semantic Trajectories
- arxiv url: http://arxiv.org/abs/2606.22527v1
- Date: Sun, 21 Jun 2026 14:25:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:43:20.62481
- Title: Trajectory Forcing: Structure-First Generation with Controllable Semantic Trajectories
- Title(参考訳): 軌道強制:制御可能なセマンティック軌道を用いた構造第一世代
- Authors: Merve Kocabas, Gege Gao, Bernhard Schölkopf, Andreas Geiger,
- Abstract要約: 拡散およびフローベース生成モデルは強い画像を生成するが、制御性はエンドポイント中心のままである。
最近の手法では、生成順序とプロセスの分解を利用してサンプルの品質を向上し始めているが、それでも中間状態は相互作用のオブジェクトではなく内部計算として扱われている。
本稿では、生成経路を明示的、意味的、編集可能にするトラジェクトリ中心のフレームワークであるトラジェクトリ・フォース(TF)を提案する。
- 参考スコア(独自算出の注目度): 62.54876287800644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion and flow-based generative models produce strong images, yet their controllability remains largely endpoint-centric: users specify conditions and receive final outputs, while the intermediate generative dynamics remain hidden. Recent methods have begun to exploit generation order and process decomposition to improve sample quality, but still treat intermediate states as internal computation rather than objects for interaction. We propose Trajectory Forcing (TF), a trajectory-centric framework that makes the generation path explicit, semantic, and editable. TF organizes synthesis as a sequence of semantically structured stages, progressing from global layout to object-, part-, and detail-level representations. Each stage produces a decodable latent state that can be inspected, evaluated, and locally edited before the next stage begins. To instantiate this path, we derive coarse-to-fine teacher hierarchies by clustering pretrained visual representations such as DINOv2, and train a hierarchy-conditioned one-step flow-matching model at each level. We further introduce trajectory-aware metrics that measure structural consistency and local controllability beyond endpoint quality metrics such as FID. Experiments show that TF achieves competitive sample quality while exposing coherent intermediate states and supporting localized edits across semantic levels. By shifting the focus from final images to the generative path itself, TF opens a route toward controllable, trajectory-aware image synthesis.
- Abstract(参考訳): 拡散モデルとフローベース生成モデルは強力な画像を生成するが、その制御性は主にエンドポイント中心であり、ユーザーは条件を指定して最終的な出力を受け取り、中間生成ダイナミクスは隠蔽される。
最近の手法では、生成順序とプロセスの分解を利用してサンプルの品質を向上し始めているが、それでも中間状態は相互作用のオブジェクトではなく内部計算として扱われている。
本稿では、生成経路を明示的、意味的、編集可能にするトラジェクトリ中心のフレームワークであるトラジェクトリ・フォース(TF)を提案する。
TFは、意味的に構造化されたステージのシーケンスとして合成を組織し、グローバルなレイアウトからオブジェクト、部分、詳細レベルの表現へと進化する。
各ステージは、次のステージが始まる前に検査、評価、局所的な編集が可能な遅延状態を生成する。
このパスをインスタンス化するために、DINOv2のような事前訓練された視覚表現をクラスタリングし、階層条件付きワンステップフローマッチングモデルを各レベルで訓練することにより、粗大な教師階層を導出する。
さらに、FIDなどのエンドポイント品質指標を超えて、構造的一貫性と局所的な制御可能性を測定するトラジェクトリ対応メトリクスを導入します。
実験により、TFはコヒーレントな中間状態を露呈し、セマンティックレベルの局所的な編集をサポートしながら、競合するサンプル品質を達成することが示された。
最終画像から生成経路自体に焦点を移すことで、TFは制御可能な軌道認識画像合成への経路を開く。
関連論文リスト
- COLLAR: Cascaded Object-Level Latent Refinement for High-Fidelity Conditional Generation [8.166232715151436]
本研究では、FoV(Field-of-View)拡張を通じて、オブジェクトレベルの機能を段階的に最適化する、トレーニング不要のフレームワークを提案する。
提案手法は, セマンティックアライメント, 画像品質, 空間忠実度にまたがって, 最先端の手法より一貫して優れている。
論文 参考訳(メタデータ) (2026-05-31T02:10:34Z) - Hierarchical Consistency Learning for Test-time Adaptation in Camouflage Perception [50.278200968044665]
カモフラージュされた物体検出(COD)は、物理的属性を通して背景から最小限の知覚差を示すターゲットをローカライズすることを目的としている。
既存のメソッドは、静的なTrain-then-freezeパラダイムによって制約されており、ドメインの剛性と依存性のアノテーションに悩まされている。
動的表現再構成のためのテスト時間適応を統合した階層的一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T09:57:46Z) - PointCSP: Cross-Sample Semantic Propagation and Stability Preservation in Self-Supervised Point Cloud Learning [14.22776855572358]
シーンレベルのクラウド自己教師型学習(PC-SSL)は、3次元視覚モデルの一般化能力を高める可能性を実証している。
バッチ内のサンプルを連続的な入力にシリアライズし,状態空間モデルで処理して意味状態の伝搬を可能にする,クロスサンプル意味伝搬(CSP)に基づくPC-SSLフレームワークを提案する。
このメカニズムは、状態空間のサンプル間の動的依存関係を明示的にモデル化し、ネットワークが潜在空間におけるクロスサンプルセマンティック一貫性を確立し、グローバルなセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2026-05-03T07:40:00Z) - Think in Strokes, Not Pixels: Process-Driven Image Generation via Interleaved Reasoning [59.262311672150055]
プロセス駆動画像生成は多段階のパラダイムで、合成をインターリーブな推論軌道に分解する。
プロセス駆動生成の核となる課題は、中間状態のあいまいさに起因する。
2つの相補的な制約を維持する、密集したステップワイドな監視を通じてこの問題に対処する。
論文 参考訳(メタデータ) (2026-04-06T15:11:57Z) - Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection [21.20482802952099]
Open-Vocabulary Temporal Action Detectionは、目に見えないカテゴリーの未編集ビデオでアクションセグメントを分類し、ローカライズすることを目的としている。
従来の手法はラベルレベルの意味論と視覚的特徴のグローバルなアライメントにのみ依存していた。
動作パターンの微粒化を可能にする位相分解アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-25T07:45:04Z) - Layer-wise Instance Binding for Regional and Occlusion Control in Text-to-Image Diffusion Transformers [49.08465459791972]
テキスト・画像生成における領域命令によるレイアウト制御は非常に実用的だが、既存の手法は制限に悩まされている。
地域生成を異なるレイヤとしてモデル化し、生成中にそれらを結合することにより、LayerBindを提案する。
論文 参考訳(メタデータ) (2026-03-06T00:09:49Z) - Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models [13.707653566827704]
トランスフォーマーモデルは、ドメインやタスク間で最先端のパフォーマンスを達成するが、その深い階層化表現により、予測の解釈が困難になる。
既存の説明可能性法は最終層属性に依存し、局所的なトークンレベルの属性か、統一せずにグローバルな注意パターンをキャプチャする。
本稿では,各トランスフォーマーブロック内の階層的に統合されたグラディエントを計算し,これらのトークンレベルの属性をクラス固有の注意勾配と融合する階層型属性フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。