論文の概要: Humanoid-OmniOcc: Stereo-Based Full-View Occupancy Dataset for Embodied AI
- arxiv url: http://arxiv.org/abs/2606.22971v1
- Date: Mon, 22 Jun 2026 07:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:09:15.064687
- Title: Humanoid-OmniOcc: Stereo-Based Full-View Occupancy Dataset for Embodied AI
- Title(参考訳): Humanoid-OmniOcc: 身体的AIのためのステレオベースのフルビュー実行データセット
- Authors: Xianda Guo, Bohao Zhang, Chenwei Huang, Shiyuan Chen, Ruilin Wang, Yiqun Duan, Cong Yang, Qin Zou, Wei Sui,
- Abstract要約: 我々はヒューマノイド・オムニオック(Humanoid-OmniOcc)について紹介する。
データセットは15の多様な室内シーンと5つの現実世界環境で構成され、広いシーンとスタイルの多様性を持つ155K以上のサンプルを生成する。
- 参考スコア(独自算出の注目度): 17.31977328366165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Occupancy prediction at voxel-level granularity is essential for safe robotic navigation and interaction in complex environments. Existing occupancy datasets, however, are predominantly designed for autonomous driving with vehicle-centric biases -- forward-facing cameras, far-field geometry, and static road priors -- limiting their applicability to embodied humanoid perception. We present Humanoid-OmniOcc, a large-scale panoramic stereo-based occupancy dataset tailored for humanoid robots. The dataset encompasses 15 diverse simulated indoor scenes and 5 real-world environments, yielding over 155K samples with broad scene and style diversity. Importantly, the dataset is designed around a Real2Sim2Real closed-loop paradigm: real sensor specifications drive physically accurate simulation, simulation produces large-scale annotated training data, and models trained in simulation are directly evaluated on real-world captures -- enabling iterative refinement of the sim-to-real pipeline. We further propose \textbf{H}umanoid \textbf{S}urround \textbf{S}tereo-guided \textbf{Occ}upancy model (Humanoid-OmniOcc) that exploits robust depth priors for accurate 2D-to-3D lifting. Extensive experiments show that Humanoid-OmniOcc consistently outperforms monocular baselines and generalizes well to both unseen simulated test scenes and real-world environments, validating the effectiveness of the Real2Sim2Real design. Code and data will be available upon acceptance at https://d-robotics-ai-lab.github.io/humanoid-omniocc.
- Abstract(参考訳): ボクセルレベルの粒度での作業予測は、複雑な環境下での安全なロボットナビゲーションと相互作用に不可欠である。
しかし、既存の占有データセットは、主に車両中心の偏見(前方カメラ、遠距離幾何学、および静的道路先)を持つ自動運転のために設計されており、ヒューマノイド認識への適用性を制限している。
我々はヒューマノイド・オムニオック(Humanoid-OmniOcc)について紹介する。
データセットは15の多様な室内シーンと5つの現実世界環境で構成され、広いシーンとスタイルの多様性を持つ155K以上のサンプルを生成する。
このデータセットはReal2Sim2Realのクローズドループパラダイムを中心に設計されている。実際のセンサ仕様は物理的に正確なシミュレーションを駆動し、シミュレーションは大規模なアノテートされたトレーニングデータを生成し、シミュレーションでトレーニングされたモデルは実際のキャプチャ上で直接評価される -- sim-to-realパイプラインの反復的な改善を可能にする。
さらに, 正確な2D-to-3Dリフトにおいて, 頑健な深度推定を生かした {textbf{H}umanoid \textbf{S}urround \textbf{S}tereo-guided \textbf{Occ}upancy model (Humanoid-OmniOcc) を提案する。
大規模な実験により、Humanoid-OmniOccはモノクロのベースラインを一貫して上回り、実世界の環境と模擬されたテストシーンの両方をうまく一般化し、Real2Sim2Realの設計の有効性を検証した。
コードとデータはhttps://d-robotics-ai-lab.github.io/ Humanoid-omniocc.comで利用可能になる。
関連論文リスト
- OASIS: From Simulation Data Collection to Real-World Humanoid Loco-Manipulation [51.37436817948304]
OASISはヒューマノイドのロコ操作のためのシミュレーションデータ駆動のフレームワークである。
3次元生成モデルを用いて実世界の画像から現実的なオブジェクト資産を再構築する。
ゼロショットデプロイメントでは、実際のロボット遠隔操作データでトレーニングされたタスクよりも、ほとんどのタスクで高い成功率を達成する。
論文 参考訳(メタデータ) (2026-06-07T10:01:53Z) - ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation [90.4702774169675]
本稿では,古典シミュレーションとニューラルシミュレーションを組み合わせた合成シミュレーションというハイブリッド手法を提案する。
提案手法では,少数の実世界のデータを活用するクローズドループ・リアル・シモン・リアル・データ拡張パイプラインを利用する。
我々はニューラルシミュレーターをトレーニングし、古典的なシミュレーションビデオを現実世界の表現に変換し、現実の環境で訓練されたポリシーモデルの精度を向上させる。
論文 参考訳(メタデータ) (2026-04-13T12:25:45Z) - EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - Depth Completion in Unseen Field Robotics Environments Using Extremely Sparse Depth Measurements [17.714237831766173]
本研究では,合成データに基づく深度補完モデルを提案し,深度センサによる極端にスパースな計測値を用いて,見えないフィールドロボティクス環境における深度を推定する。
当社のアプローチでは,Nvidia Jetson AGX Orin上で1フレームあたり53ミリ秒のエンドツーエンドレイテンシを実現し,組み込みプラットフォームへのリアルタイムデプロイメントを実現している。
論文 参考訳(メタデータ) (2026-02-03T07:24:05Z) - Sim-and-Human Co-training for Data-Efficient and Generalizable Robotic Manipulation [113.13282853889818]
SimHumは、シミュレーションされたロボット行動と実世界の人間の観察から視覚的事前を同時に抽出するフレームワークである。
2つの相補的前提に基づき、実世界のタスクにおいて、データ効率と一般化可能なロボット操作を実現する。
論文 参考訳(メタデータ) (2026-01-27T09:41:28Z) - ExoGS: A 4D Real-to-Sim-to-Real Framework for Scalable Manipulation Data Collection [27.18540416686717]
ExoGSはロボットフリーの4D Real-to-Sim-to-Realフレームワークである。
実世界の静的環境と動的相互作用の両方をキャプチャし、それらをシミュレートされた環境にシームレスに転送する。
スケーラブルなデータ収集とポリシー学習のための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-26T16:04:12Z) - Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - OmniRe: Omni Urban Scene Reconstruction [78.99262488964423]
OmniReはデバイス上でのログから動的現実シーンの高忠実なデジタルツインを作成するための総合システムである。
提案手法は3DGS上にシーングラフを構築し,様々な動的アクターをモデル化する標準空間内に複数のガウス表現を構築する。
論文 参考訳(メタデータ) (2024-08-29T17:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。