論文の概要: AnnotateAnything: Automatic Annotation of 3D Assets for Robot Manipulation
- arxiv url: http://arxiv.org/abs/2606.17446v1
- Date: Tue, 16 Jun 2026 03:00:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.229512
- Title: AnnotateAnything: Automatic Annotation of 3D Assets for Robot Manipulation
- Title(参考訳): アノテーション:ロボット操作のための3次元アセットの自動アノテーション
- Authors: Haoran Lu, Mutian Shen, Shuyang Yu, Yu Xiao, Songling Liu, Jianshu Zhang, Shang Wu, Yue Chen, Guo Ye, Jiayi Wang, Zhaoran Wang, Han Liu,
- Abstract要約: AnnotateAnythingは、パッシブな3Dアセットを構造化され多様な実行可能な操作ラベルを持つ操作可能なアセットに変換する。
完全に自動化され、非常に並列な物理パイプラインは、各アセットの幾何学的制約と物理的制約にこれらの前提を定めている。
このパイプラインは、グリップポーズ、デクスタラスコンタクト、調音経路ポイント、挿入方向、吊り下げ時間、ナビゲーションターゲットなど、多種多様な実行可能なアノテーションを生成する。
- 参考スコア(独自算出の注目度): 37.64142499431465
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Simulation enables scalable robot data collection, but raw 3D assets provide only geometry, lacking the semantic, interactive, and physical knowledge needed to specify where and how robots should act. In this work, we present AnnotateAnything, a general automatic annotation framework that converts passive 3D assets into manipulation-ready assets with structured, diverse, and executable manipulation labels. AnnotateAnything is built around two complementary pipelines. First, a unified visual-language annotation pipeline using vision-language reasoning to infer object semantics, interaction constraints, and 3D-grounded cues, providing human-prior guidance for identifying meaningful interaction regions. Second, a fully automatic and massively parallel physics annotation pipeline grounds these priors in each asset's geometry and physical constraints through candidate generation, geometry optimization and trajectory generation. This pipeline produces diverse and executable action annotations, including grasp poses, dexterous contacts, articulation waypoints, insertion directions, hanging affordances, and navigation targets. Using the generated annotations, we further build an asynchronous parallel simulation data-collection system across diverse objects, tasks, and robot embodiments. Experiments demonstrate that AnnotateAnything achieves superior annotation efficiency, data-collection efficiency, and task success rates over existing annotation and data-generation pipelines, while also supporting downstream tasks such as affordance detection, robotic VQA, and visual instruction finetuning. We provide project materials on the project page and plan to release the full code, annotations, and benchmark to facilitate future research. Videos, code, demo assets, and annotations are provided in supplementary materials Project page: https://tourmaline-caramel-169490.netlify.app.
- Abstract(参考訳): シミュレーションはスケーラブルなロボットデータ収集を可能にするが、生の3Dアセットは幾何学のみを提供する。
本研究では,パッシブな3Dアセットを構造化,多様性,実行可能な操作ラベルを持つ操作可能なアセットに変換する,一般的な自動アノテーションフレームワークAnnotateAnythingを提案する。
AnnotateAnythingは2つの補完パイプラインを中心に構築されている。
まず、視覚言語推論を用いた統一的な視覚言語アノテーションパイプラインを用いて、オブジェクトの意味論、相互作用制約、および3Dグラウンドドキューを推論し、意味のある相互作用領域を識別するための人間優先のガイダンスを提供する。
第2に、完全自動かつ大規模並列な物理アノテーションパイプラインは、各資産の幾何と物理的制約を候補生成、幾何最適化、軌道生成を通じて基礎づける。
このパイプラインは多様な実行可能なアクションアノテーションを生成しており、グリップポーズ、デクスタラスコンタクト、調音経路ポイント、挿入方向、吊り下げ時間、ナビゲーションターゲットなどが含まれる。
生成したアノテーションを用いて,多様なオブジェクト,タスク,ロボットの実施状況にまたがる非同期並列シミュレーションデータ収集システムを構築する。
実験により、AnnotateAnythingは既存のアノテーションやデータ生成パイプラインよりも優れたアノテーション効率、データ収集効率、タスク成功率を達成するとともに、アベイランス検出、ロボットVQA、ビジュアルインストラクション微調整といった下流タスクもサポートすることが示された。
プロジェクトページにプロジェクト資料を提供し、将来の研究を促進するために、完全なコード、アノテーション、ベンチマークをリリースする予定です。
ビデオ、コード、デモアセット、アノテーションは補足材料としてプロジェクトページで提供されている。
関連論文リスト
- ArtiWorld: LLM-Driven Articulation of 3D Objects in Scenes [43.19849355456126]
ArtiWorldは、テキストシーン記述から候補のアーティキュラブルオブジェクトをローカライズする、シーン認識パイプラインである。
このパイプラインのコアとなるArti4URDFは、3Dポイントクラウドと大規模言語モデルの事前知識を活用している。
ArtiWorldを3つのレベル(3Dシミュレーションオブジェクト、フル3Dシミュレーションシーン、実世界のスキャンシーン)で評価する。
論文 参考訳(メタデータ) (2025-11-17T04:59:21Z) - OccLE: Label-Efficient 3D Semantic Occupancy Prediction [68.60633561134571]
OccLEはラベル効率のよい3Dセマンティック動作予測である。
イメージとLiDARを入力として取り、限られたvoxelアノテーションでハイパフォーマンスを維持する。
実験の結果,OccLE は Voxel アノテーションの10% しか使用せず,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-05-27T01:41:28Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - SIGHT: Synthesizing Image-Text Conditioned and Geometry-Guided 3D Hand-Object Trajectories [124.24041272390954]
手動物体の相互作用をモデル化することは、ロボットと具体化されたAIシステムを前進させる大きな可能性を秘めている。
SIGHTは、1つの画像から現実的で物理的に妥当な3Dハンドオブジェクトインタラクショントラジェクトリを生成することに焦点を当てた,新しいタスクである。
SIGHT-Fusionは,データベースから最もよく似た3Dオブジェクトメッシュを抽出し,この課題に対処する,新しい拡散型画像文条件付き生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-28T20:53:20Z) - Articulate3D: Holistic Understanding of 3D Scenes as Universal Scene Description [56.69740649781989]
3Dシーン理解は、コンピュータビジョンにおける長年の課題であり、混合現実、ウェアラブルコンピューティング、そして具体化されたAIを実現する上で重要な要素である。
室内280のシーンに高品質な手動アノテーションを付加した専門的な3DデータセットであるArticulate3Dを紹介する。
我々はまた,部分分割を同時に予測できる新しい統一フレームワークUSDNetと,オブジェクトの動作属性の完全な仕様を提示する。
論文 参考訳(メタデータ) (2024-12-02T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。