論文の概要: One Image is All You Need: Agentic One-Shot Image Generation via Text-Based World Models for Long-Tail Spatial Perception
- arxiv url: http://arxiv.org/abs/2606.20764v1
- Date: Thu, 18 Jun 2026 11:56:04 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:18:57.665801
- Title: One Image is All You Need: Agentic One-Shot Image Generation via Text-Based World Models for Long-Tail Spatial Perception
- Title(参考訳): 1枚の画像がすべて必要なもの:長距離空間認識のためのテキストベース世界モデルによるエージェントワンショット画像生成
- Authors: Keqin Zeng, Shuting Su, Shihao Lin, Ziyue Li, Rui Zhao,
- Abstract要約: 現実世界のデータは重大で、しばしば安全クリティカルなシナリオのための極端に長い尾の分布として表される。
WMGen-v1は長期空間データ生成のためのエージェントテキストベースの世界モデルフレームワークである。
特に、WMGen-v1合成データのみに基づいてトレーニングされた検出器は、データセットレベルのメトリクスのリアルタイムパフォーマンスにアプローチする。
- 参考スコア(独自算出の注目度): 9.723987776806466
- License:
- Abstract: Reliable spatial decision automation, such as autonomous driving and maritime surveillance, critically depends on robust visual perception. However, real-world spatiotemporal data exhibits severe heterogeneity, often manifesting as extreme long-tail distributions for safety-critical scenarios. This data scarcity induces dataset shift that degrades detection performance and pose safety risks. While synthetic data generation offers a potential solution, existing generative approaches, such as diffusion models and Generative Adversarial Networks (GANs), often lack explicit spatial grounding and structural constraints, resulting in spatial and physical inconsistencies in generated scenes. To address these challenges, we introduce WMGen-v1, an agentic text-based world model framework for long-tail spatial data generation. WMGen-v1 employs a Large Vision-Language Model (LVLM) to construct a structured scene representation from a single reference image, while a Large Language Model (LLM) performs guidance-based scene expansion under physical plausibility and commonsense constraints. Subsequently, conditioned on the structured semantic representations produced by this reasoning process, a diffusion model generates diverse and physically grounded long-tail training data. Experiments on internal industrial datasets, ROADWork, and LaRS benchmarks demonstrate that WMGen-v1 outperforms baseline approaches. Notably, detectors trained solely on WMGen-v1 synthetic data approach real-only performance on aggregate dataset-level metrics, highlighting its potential to alleviate long-tail data scarcity for downstream spatial perception.
- Abstract(参考訳): 自律運転や海上監視のような信頼性の高い空間的意思決定自動化は、堅牢な視覚的知覚に依存している。
しかし、現実世界の時空間データは深刻な不均一性を示し、しばしば安全クリティカルなシナリオに対する極端に長い尾の分布として表される。
このデータ不足は、検出性能を低下させ、安全性のリスクを生じさせるデータセットシフトを誘導する。
合成データ生成は潜在的な解決策を提供するが、拡散モデルやGAN(Generative Adversarial Networks)のような既存の生成的アプローチは、しばしば明示的な空間的接地と構造的制約を欠いているため、生成されたシーンにおける空間的および物理的不整合が生じる。
これらの課題に対処するため、WMGen-v1は、長期空間データ生成のためのエージェントテキストベースの世界モデルフレームワークである。
WMGen-v1は1つの参照画像から構造化されたシーン表現を構築するためにLarge Vision-Language Model (LVLM)を採用しているが、Large Language Model (LLM)は物理的妥当性と常識制約の下でガイダンスベースのシーン拡張を実行する。
その後、この推論プロセスによって生成された構造的意味表現を条件に、拡散モデルにより、多様かつ物理的に根拠付けられたロングテールトレーニングデータを生成する。
社内の産業データセット、ROADWork、LaRSベンチマークの実験では、WMGen-v1がベースラインアプローチより優れていることが示されている。
特に、WMGen-v1合成データのみに基づいてトレーニングされた検出器は、データセットレベルのメトリクスを集約して、実際のパフォーマンスにアプローチする。
関連論文リスト
- Reinforcement-Guided Synthetic Data Generation for Privacy-Sensitive Identity Recognition [60.52810518437911]
高忠実度生成モデルは、プライバシーに敏感なシナリオでますます必要とされている。
限られたデータによって生成モデルは貧弱になり、データ不足を軽減できない。
汎用ドメイン生成の先行を識別タスクに適応させる,強化誘導型合成データ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-09T06:52:03Z) - Central-to-Local Adaptive Generative Diffusion Framework for Improving Gene Expression Prediction in Data-Limited Spatial Transcriptomics [2.3129926848389633]
空間転写学 (Spatial Transcriptomics, ST) は、無傷組織構造内の空間的に解決された遺伝子発現プロファイルを提供する。
分子誘導を限定した大規模形態素前駆体を組み込んだST(C2L-ST)の中央-局所適応型生成拡散フレームワークを提案する。
C2L-STは、分子レベルのデータ拡張のためのスケーラブルでデータ効率のよいフレームワークを提供する。
論文 参考訳(メタデータ) (2026-03-27T02:32:00Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Vision-LLMs for Spatiotemporal Traffic Forecasting [14.700408329373998]
大規模言語モデル(LLM)は、グリッドベースのトラフィックデータの複雑な空間的依存関係をモデル化するのに本質的に苦労する。
本稿では,視覚言語融合問題として時間的予測を行う新しいフレームワークであるST-Vision-LLMを提案する。
また,ST-Vision-LLMでは,長期予測精度が15.6%向上し,クロスドメインシナリオでは30.04%以上向上した。
論文 参考訳(メタデータ) (2025-10-13T11:15:56Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Domain Generalized Stereo Matching with Uncertainty-guided Data Augmentation [11.938635624781313]
State-of-the-art stereo matching (SM)モデルはドメインの違いにより実際のデータドメインに一般化できないことが多い。
データ拡張を活用してトレーニングドメインを拡張し、堅牢なクロスドメイン特徴表現を取得するようモデルに促します。
私たちのアプローチはシンプルでアーキテクチャに依存しないもので、任意のSMネットワークに統合することができます。
論文 参考訳(メタデータ) (2025-08-02T10:26:53Z) - Spatial-Temporal-Spectral Unified Modeling for Remote Sensing Dense Prediction [20.1863553357121]
リモートセンシングのための現在のディープラーニングアーキテクチャは、基本的に堅固である。
本稿では,統合モデリングのための空間時間スペクトル統一ネットワーク(STSUN)について紹介する。
STSUNは任意の空間サイズ、時間長、スペクトル帯域で入力および出力データに適応することができる。
様々な密集した予測タスクと多様な意味クラス予測を統一する。
論文 参考訳(メタデータ) (2025-05-18T07:39:17Z) - Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。
マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。
HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。