Fugu-MT 論文翻訳(概要): MuseVLA: An Adaptive Multimodal Sensing Vision-Language-Action Model for Robotic Manipulation

論文の概要: MuseVLA: An Adaptive Multimodal Sensing Vision-Language-Action Model for Robotic Manipulation

arxiv url: http://arxiv.org/abs/2606.17598v1
Date: Tue, 16 Jun 2026 07:04:13 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-17 17:15:32.320059
Title: MuseVLA: An Adaptive Multimodal Sensing Vision-Language-Action Model for Robotic Manipulation
Title（参考訳）: MuseVLA:ロボットマニピュレーションのための適応型マルチモーダル・ビジョン・ランゲージ・アクションモデル
Authors: Xingyuming Liu, Ruichun Ma, Heyu Guo, Qixiu Li, Qingwen Yang, Lin Luo, Shiqi Jiang, Chenren Xu, Jiaolong Yang, Baining Guo,
Abstract要約: MuseVLAは、新しいセンサーをロボット操作のオンデマンドツールとして統合した適応型マルチモーダルセンシングVLAモデルである。実世界ロボットのMuseVLAを、難易度の高い手操作タスクにまたがって評価する。 MuseVLAは平均80.6%の成功率に達し、RGBのみのベースラインとマルチセンサーのVLAベースラインを大きく上回っている。
参考スコア（独自算出の注目度）: 26.84733398706325
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Humans naturally leverage diverse sensing modalities to interact with the physical world, while most Vision-Language-Action (VLA) models for robotics rely solely on RGB observations. This limits their ability to perceive physical properties that are difficult or impossible to infer from RGB cameras, such as temperature, sound, or radar response. We present MuseVLA, an adaptive multimodal sensing VLA model that integrates novel sensors as on-demand tools for robotic manipulation. Given a task instruction and visual context, MuseVLA first generates a sensor token and target description that select the sensing modality to invoke and what to attend to, analogous to a tool call with arguments. It then converts the selected sensor measurement into a grounded sensor image, a unified intermediate representation that encodes heterogeneous readings for multimodal fusion and action generation. This design decouples sensor-specific processing from the VLA backbone, enabling efficient integration of diverse modalities. To reduce the need for expensive multisensory robot datasets, we further introduce a data synthesis pipeline that augments existing RGB video datasets with grounded sensor images, enabling generalization to unseen sensor-guided tasks. We evaluate MuseVLA on a real-world robot across challenging dexterous hand manipulation tasks that require multimodal sensing inputs, including temperature-guided pick-and-place, audio-driven object search, and radar-assisted hidden object retrieval. MuseVLA achieves 80.6% success rate on average, outperforming RGB-only and multisensory VLA baselines significantly, and exhibits strong zero-shot capabilities on unseen tasks.
Abstract（参考訳）: 人間は自然界と相互作用するために様々な感覚的モダリティを生かし、ロボット工学のほとんどのモデルでは、RGBの観測のみに依存している。これにより、温度、音、レーダー応答などのRGBカメラから推測することが困難または不可能な物理的特性を知覚する能力が制限される。ロボット操作のためのオンデマンドツールとして,新しいセンサを統合した適応型マルチモーダルセンシングVLAモデルであるMuseVLAを提案する。タスク命令と視覚的コンテキストが与えられた後、MuseVLAは最初にセンサートークンとターゲット記述を生成し、呼び出しるべき知覚モダリティと、引数を持つツール呼び出しに類似したものを選択する。そして、選択されたセンサ計測を、マルチモーダル融合とアクション生成のための異種読みを符号化する統合中間表現である、接地されたセンサーイメージに変換する。この設計は、センサ固有の処理をVLAバックボーンから切り離し、多様なモダリティの効率的な統合を可能にする。高価なマルチセンサーロボットデータセットの必要性を低減するため,既存のRGBビデオデータセットを接地センサー画像で拡張するデータ合成パイプラインを導入し,センサ誘導タスクの可視化を可能にする。実世界のロボットでMuseVLAを評価し,温度誘導型ピック・アンド・プレイス,オーディオ駆動型オブジェクト検索,レーダー支援型隠れオブジェクト検索など,マルチモーダル・インプットを必要とする難易度な手操作タスクについて検討した。 MuseVLAは平均して80.6%の成功率を記録し、RGBのみのベースラインとマルチセンサーのVLAベースラインを大きく上回り、目に見えないタスクに対して強力なゼロショット能力を示す。

関連論文リスト

Zero-shot HOI Detection with MLLM-based Detector-agnostic Interaction Recognition [71.5328300638085]
Zero-shot Human-Object Interaction (HOI) は、画像中の人間と物体を特定し、その相互作用を認識することを目的としている。 2段階法を含む既存の手法は、特定の検出器との相互作用認識を密に結合する。本稿では、オブジェクト検出をIRから分離し、マルチモーダル大言語モデル(MLLM)をゼロショットIRに活用する分離フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-16T19:01:31Z)
UniForce: A Unified Latent Force Model for Robot Manipulation with Diverse Tactile Sensors [51.88112610411651]
そこで本研究では,多様な触覚センサにまたがる共用潜在力空間を学習する,新しい統合された触覚表現学習フレームワークを提案する。 UniForceは、逆ダイナミクス(image-to-force)とフォワードダイナミクス(force-to-image)を共同モデリングすることで、クロスセンサー領域シフトを低減する高価な外部力/トルクセンサ(F/T)への依存を避けるため,静的平衡を利用して直接センサ・オブジェクト・センサ・インタラクションを介して力対効果データを収集する。
論文参考訳（メタデータ） (2026-02-01T11:03:01Z)
Real-Time Human-Robot Interaction Intent Detection Using RGB-based Pose and Emotion Cues with Cross-Camera Model Generalization [0.8839687029212673]
公共空間におけるサービスロボットは、自然な相互作用のための人間の行動意図をリアルタイムに理解する必要がある。モノクラーRGBビデオから抽出した2次元骨格ポーズと顔の感情特徴を融合したフレーム精度の人-ロボットインタラクション意図検出のためのフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-18T08:44:22Z)
OmniVLA: Physically-Grounded Multimodal VLA with Unified Multi-Sensor Perception for Robotic Manipulation [23.18144879039764]
視覚-言語-アクション(VLA)モデルは、大規模視覚-言語事前訓練を通じてロボット行動予測の強力な一般化を示す。我々は,RGB知覚を超えた空間的知能を物理的に接地する新しい感覚モダリティを組み込んだ全モードVLAモデルであるOmniVLAを提案する。
論文参考訳（メタデータ） (2025-11-03T04:10:44Z)
Progressive Inertial Poser: Progressive Real-Time Kinematic Chain Estimation for 3D Full-Body Pose from Three IMU Sensors [25.67875816218477]
スパース追跡信号からのフルボディポーズ推定は、環境条件や記録範囲によって制限されない。従来の作業では、骨盤と下肢にセンサーを追加することや、キージョイントのグローバルな位置を得るために外部視覚センサーに頼ることが困難だった。仮想現実技術の実用性を向上させるため,頭部と手首に装着した3つの慣性計測ユニット(IMU)センサから得られた慣性データのみを用いて,全身のポーズを推定した。
論文参考訳（メタデータ） (2025-05-08T15:28:09Z)
Taccel: Scaling Up Vision-based Tactile Robotics via High-performance GPU Simulation [34.47272224723296]
ロボット,触覚センサ,物体を精度と前例のない速度でモデル化するために,IPCとABDを統合した高性能なシミュレーションプラットフォームであるTaccelを提案する。並列化が制限されたサブリアルタイム速度で動作する従来のシミュレータとは異なり、Taccelは正確な物理シミュレーションとリアルな触覚信号を提供する。これらの能力は、触覚ロボットの研究と開発を拡大するための強力なツールとして、Taccelを位置づけている。
論文参考訳（メタデータ） (2025-04-17T12:57:11Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip Perception of Mobile Manipulation Robots [22.63980025871784]
提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。統合されたデータは、ディープオートエンコーダを訓練して、通常の状態を示す多感覚データの潜在表現を構築するために使用される。次に、トレーニングされたエンコーダの潜伏値と再構成された入力データの潜伏値との差によって測定された誤差スコアによって異常を識別することができる。
論文参考訳（メタデータ） (2024-03-06T09:15:53Z)
Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文参考訳（メタデータ） (2022-02-15T17:38:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。