論文の概要: UMI-Bench 1.0: An Open and Reproducible Real-World Benchmark for Tabletop Robotic Manipulation with UMI Data
- arxiv url: http://arxiv.org/abs/2606.10382v1
- Date: Tue, 09 Jun 2026 03:47:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.98934
- Title: UMI-Bench 1.0: An Open and Reproducible Real-World Benchmark for Tabletop Robotic Manipulation with UMI Data
- Title(参考訳): UMI-Bench 1.0: UMIデータを用いたテーブルトップロボットマニピュレーションのためのオープンで再現可能な実世界ベンチマーク
- Authors: Shi Jin, Yuntian Wang, Yuhui Duan, Di Wu, Gaoqi Dong, Xiaohang Liu, Xiaotong Li, Hongfei Jia, Zehao Zhang, Tianyu Wang, Zhongjie Jia, Yuanqi Yao, Chenjia Bai, Zhaxizhuoma, Siao Liu, Nieqing Cao, Jin Wang, Chao Yu, Yan Ding,
- Abstract要約: UMI-Bench 1.0は,Universal Manipulation Interface(UMI)スタイルの操作ポリシーの標準化評価のための実ロボットベンチマークである。
UMI-Benchは、統一されたプロトコル内でのデータ収集、シーンリセット、ポリシーの実行、結果のロギング、タスク要素分析を調整します。
UMI-Benchは、完全な評価プロセスを再現可能かつ監査可能にすることで、UMI訓練されたポリシーが実際の物理的操作にどのように一般化するかを測定するための実践的なテストベッドを提供する。
- 参考スコア(独自算出の注目度): 52.951102709270714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-robot evaluation is essential for understanding whether learned manipulation policies can operate reliably outside curated demonstrations. This need is particularly pressing for Universal Manipulation Interface (UMI)-style policies, whose performance depends on the coupling between wrist-view observations, action representation, data collection, and physical deployment. Existing real-world benchmarks have made important progress, but they are not designed around this UMI data-to-deployment setting. We present UMI-Bench 1.0, a local-first real-robot benchmark for standardized evaluation of UMI-style manipulation policies. To the best of our knowledge, this is the first benchmark dedicated to real-world evaluation of UMI-based manipulation models. UMI-Bench aligns data collection, scene reset, policy execution, result logging, and task-factor analysis within a unified protocol. By making the full evaluation process reproducible and auditable, UMI-Bench provides a practical testbed for measuring how UMI-trained policies generalize to real physical manipulation.
- Abstract(参考訳): 実ロボット評価は、学習された操作ポリシーがキュレートされたデモの外で確実に動作できるかを理解するために不可欠である。
このニーズは、特にUMI(Universal Manipulation Interface)スタイルのポリシーに強く依存しており、そのパフォーマンスは、手首ビューの観察、アクション表現、データ収集、物理展開の結合に依存する。
既存の実世界のベンチマークは重要な進歩を遂げているが、このUMIデータ・デプロイ・セッティングを中心には設計されていない。
UMI-Bench 1.0は、UMIスタイルの操作ポリシーの標準化評価のためのローカルファーストな実ロボットベンチマークである。
我々の知る限りでは、UMIベースの操作モデルの現実的な評価に特化した最初のベンチマークとなる。
UMI-Benchは、統一されたプロトコル内でのデータ収集、シーンリセット、ポリシーの実行、結果のロギング、タスク要素分析を調整します。
UMI-Benchは、完全な評価プロセスを再現可能かつ監査可能にすることで、UMI訓練されたポリシーが実際の物理的操作にどのように一般化するかを測定するための実践的なテストベッドを提供する。
関連論文リスト
- MCP-Persona: Benchmarking LLM Agents on Real-World Personal Applications via Environment Simulation [55.14253918630382]
MCP-Personaは,実世界向けパーソナライズされたMPPツール上でのエージェント性能を評価するために設計された,最初のベンチマークである。
MCP-Personaには、RedditやXiaohongshu(Rednote)のようなソーシャルメディアプラットフォームから、Lark(Feishu)やSlackといったエンタープライズコラボレーションスイートまで、さまざまな用途のアプリケーションが含まれている。
さまざまな最先端(SOTA)エージェントに関する実験は、パーソナライズされたツールの使用に対する大きな苦労を実証し、これらの制限を特定し、対処する上で、ベンチマークが重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2026-06-01T16:44:10Z) - Sphinx: Benchmarking and Modeling for LLM-Driven Pull Request Review [37.98161722413899]
プルリクエスト(PR)レビューは、ソフトウェア品質を保証する上で不可欠だが、ノイズの多い監視、限られたコンテキスト理解、不適切な評価指標のため、依然として難しい。
提案するPRレビュー用統合フレームワークであるSphinxは,(1)擬似修飾コードとマージコードを比較することによって,文脈に富んだ,意味論的根拠のあるレビューコメントを生成する構造化データ生成パイプライン,(2)実行可能な検証ポイントの構造化カバレッジに基づいてレビュー品質を評価するチェックリストに基づく評価ベンチマーク,(3)ルールベースで解釈可能な報酬を用いて,モデル動作を現実と整合させる新しいトレーニングパラダイムであるCRPOである。
論文 参考訳(メタデータ) (2026-01-06T18:49:56Z) - MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - DataSciBench: An LLM Agent Benchmark for Data Science [33.3811507234528]
DataSciBenchは、データサイエンスにおけるLarge Language Model(LLM)の機能を評価するためのベンチマークである。
我々は、グラウンド・真実(GT)を生成し、評価指標を検証するための半自動パイプラインを開発した。
我々は、各コード実行結果を評価する革新的なTask-Function-Codeフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T17:31:51Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [51.66718740300016]
TableLLMは80億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。