論文の概要: SPARC: Reliable Spatial Annotations from Robot Demonstrations at Scale
- arxiv url: http://arxiv.org/abs/2606.13497v1
- Date: Thu, 11 Jun 2026 15:46:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.892407
- Title: SPARC: Reliable Spatial Annotations from Robot Demonstrations at Scale
- Title(参考訳): SPARC: スケールでのロボットデモからの信頼性の高い空間アノテーション
- Authors: Nils Blank, Paul Mattes, Maximilian Xiling Li, Jakub Suliga, Thomas Roth, Moritz Reuss, Pankhuri Vanjani, Rudolf Lioutikov,
- Abstract要約: この研究は、構造化アノテーションでロボットのデモを自動的にラベル付けするリスク認識フレームワーク、SPARC(Robot Demonstrations with Reliability)から空間時間を導入する。
境界ボックス、オブジェクトトラジェクトリ、操作フェーズラベルなどの構造化空間アノテーションは、幅広いロボット工学応用の恩恵を受ける。
- 参考スコア(独自算出の注目度): 7.084784996380857
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces Spatial Annotations from Robot Demonstrations with Reliability Calibration (SPARC), a risk-aware framework that automatically labels robot demonstrations with structured spatial annotations and assigns each annotation a reliability score. Structured spatial annotations, such as bounding boxes, object trajectories, and manipulation phase labels, benefit a broad range of robotics applications from training grounded robot policies and embodied foundation models to motion planning and hierarchical task composition. Existing automated pipelines generate such annotations at scale but provide no reliable quality signal: detector confidence is poorly calibrated for annotation correctness, forcing a choice between accepting noisy labels or discarding useful samples. In contrast to existing automated pipelines, SPARC leverages the spatio-temporal structure inherent to robot tasks to generate a reliability signal, reducing noisy labels and retaining more useful samples. We further introduce Interaction-Aware Bench (IA-Bench), a benchmark that measures model accuracy in grounding the locations of interacted objects in robot demonstrations. On 1.7k human-annotated demonstrations spanning diverse embodiments and scenarios, SPARC significantly outperforms detection-only baselines in localization accuracy while retaining three times more samples at high-precision operating points. Our experiments demonstrate that models finetuned on our annotations achieve state-of-the-art results on object-grounding and pointing benchmarks among similarly sized models, while remaining competitive on broader spatial-reasoning suites without manually verified or annotated training data. Furthermore, policies trained on SPARC-generated annotations outperform baselines in cluttered, visually ambiguous real-world scenes. Code, data, and models are available at intuitive-robots.github.io/sparc-labeling.
- Abstract(参考訳): 本研究は,ロボットデモを構造化された空間アノテーションで自動的にラベル付けし,各アノテーションに信頼性スコアを割り当てるリスク対応フレームワークであるSPARC(Spatial Annotations from Robot Demonstrations with Reliability Calibration)を紹介する。
境界ボックス、オブジェクトトラジェクトリ、操作フェーズラベルなどの構造化空間アノテーションは、基礎となるロボットポリシーのトレーニングから、モーションプランニングや階層的なタスク構成に至るまで、幅広いロボット工学応用の恩恵を受ける。
既存の自動パイプラインはそのようなアノテーションを大規模に生成するが、信頼性の高い品質信号は提供されない。
既存の自動パイプラインとは対照的に、SPARCはロボットタスク固有の時空間構造を利用して信頼性信号を生成し、ノイズラベルを低減し、より有用なサンプルを保持する。
さらに,ロボット実験における対話対象の位置のグラウンド化における精度をモデル化するベンチマークであるInteraction-Aware Bench(IA-Bench)を紹介する。
多様な実施形態やシナリオにまたがる1.7kの人間アノテーションによるデモンストレーションでは、SPARCは高精度な操作ポイントで3倍以上のサンプルを保持しながら、検出のみのベースラインのローカライズ精度を著しく上回っている。
本実験は,アノテーションに微調整されたモデルが,手作業による検証や注釈付きトレーニングデータなしで,より広い空間推論スイート上での競争力を維持しながら,オブジェクトグラウンドやポインティングベンチマークの最先端結果が得られることを示した。
さらに、SPARC生成アノテーションで訓練されたポリシーは、散らかった、視覚的に曖昧な現実世界のシーンにおいて、ベースラインを上回った。
コード、データ、モデルは直感的なrobots.github.io/sparc-labelingで利用できる。
関連論文リスト
- TapSampling: Inference-Time Sampling with a Task-Progress-Understanding Verifier for Robotic Manipulation [61.35569005726248]
既存の具体的制御研究は、トレーニングデータとモデルサイズをスケールすることで、顕著なパフォーマンス向上を示す。
拡散や自己回帰モデルのような非決定論的生成モデルは、エンボディドコントロールの分野で広く採用されている。
推測時間サンプリングのためのプラグイン・アンド・プレイフレームワークである textbfTapSampling を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:03:31Z) - Instance-Guided Unsupervised Domain Adaptation for Robotic Semantic Segmentation [4.556831252263135]
教師なしドメイン適応(Unsupervised Domain Adaptation, UDA)は、外部の監視なしにロボットのターゲット環境にネットワークを適応させる。
本稿では,3次元地図から始まる多視点一貫した擬似ラベルを生成する手法を提案する。
ファウンデーションモデルのゼロショットインスタンスセグメンテーション機能を用いて、これらのラベルを洗練し、インスタンスレベルのコヒーレンスを強制する。
論文 参考訳(メタデータ) (2026-02-01T18:49:03Z) - About an Automating Annotation Method for Robot Markers [0.0]
本稿では,ArUcoマーカー画像を用いたディープラーニングモデルの自動アノテーション手法を提案する。
自動アノテーション付きデータセットを用いてYOLOベースのモデルをトレーニングし、その性能を様々な条件下で評価する。
論文 参考訳(メタデータ) (2026-01-30T13:44:56Z) - Enhancing Egocentric Object Detection in Static Environments using Graph-based Spatial Anomaly Detection and Correction [0.0]
本稿では,物体間の空間的関係を明示的にモデル化し,自己中心型フレームにおける異常検出を補正するグラフベースの後処理パイプラインを提案する。
手動でアノテートされたデータに基づいてトレーニングされたグラフニューラルネットワーク(GNN)を用いて、無効なオブジェクトクラスラベルを特定し、近隣のコンテキストに基づいて修正されたクラスラベルを予測する。
実験では、この空間推論を組み込むことで検出性能が大幅に向上し、mAP@50は最大4%向上した。
論文 参考訳(メタデータ) (2025-08-11T05:08:02Z) - Self-supervised Feature Extraction for Enhanced Ball Detection on Soccer Robots [2.111102681327218]
球検出性能を向上させるために,ドメイン適応型特徴抽出のための自己教師型学習フレームワークを提案する。
提案手法は,汎用事前学習モデルを用いて擬似ラベルを生成する。
実験の結果,提案したパイプラインは精度,F1スコア,IoUでベースラインモデルより優れ,コンバージェンスも高速であることがわかった。
論文 参考訳(メタデータ) (2025-06-20T08:21:34Z) - PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting [90.47748423913369]
最先端のモーション予測モデルは、手動で注釈を付けたり、非常に後処理されたトラジェクトリを備えた、大規模なキュレートされたデータセットに依存している。
PWTはシンプルでスケーラブルな代替手段で、市販の3D検出器とトラッキングから自動生成される、未処理で多様な軌道を使用する。
標準ベンチマーク、特に低データのレシエーション、クロスドメイン、エンドツーエンド、マルチクラスの設定において、強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-12-09T13:48:15Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Why Sample Space Matters: Keyframe Sampling Optimization for LiDAR-based Place Recognition [6.468510459310326]
サンプル空間の概念を導入し,LiDARを用いた位置認識のための新しいサンプリング手法を提案する。
このアプローチは、さまざまなデータセット間で堅牢なパフォーマンスを示し、屋内シナリオから屋外シナリオへのシームレスな適応を可能にします。
論文 参考訳(メタデータ) (2024-10-03T16:29:47Z) - Semi-supervised Open-World Object Detection [74.95267079505145]
半教師付きオープンワールド検出(SS-OWOD)という,より現実的な定式化を導入する。
提案したSS-OWOD設定では,最先端OWOD検出器の性能が劇的に低下することが実証された。
我々は,MS COCO, PASCAL, Objects365, DOTAの4つのデータセットを用いた実験を行い, 提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-25T07:12:51Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Be Your Own Neighborhood: Detecting Adversarial Example by the
Neighborhood Relations Built on Self-Supervised Learning [64.78972193105443]
本稿では,予測に有効な新しいAE検出フレームワークを提案する。
AEの異常な関係と拡張バージョンを区別して検出を行う。
表現を抽出し、ラベルを予測するために、既製の自己監視学習(SSL)モデルが使用される。
論文 参考訳(メタデータ) (2022-08-31T08:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。