論文の概要: GIVE: Grounding Human Gestures in Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.13435v1
- Date: Thu, 11 Jun 2026 14:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.863099
- Title: GIVE: Grounding Human Gestures in Vision-Language-Action Models
- Title(参考訳): GIVE:視覚・言語・アクションモデルにおけるヒューマンジェスチャの接地
- Authors: Pengfei Liu, Gen Li, Junqiao Fan, Boyu Ma, Jindou Jia, Yang Xiao, Jianfei Yang,
- Abstract要約: GIVE (Gesture Intent via Visual-Semantic Enhancement) は、人間のジェスチャー理解によって事前訓練された視覚・言語・アクション(VLA)モデルを強化する効果的なアプローチである。
実世界のHRI実験では、GIVEはベースラインを大幅に上回り、目標オブジェクト認識精度を40%改善し、全体的なタスク成功率を80%向上させた。
- 参考スコア(独自算出の注目度): 38.010995423052975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human communication is inherently multimodal, where language is often accompanied by non-verbal cues such as gestures to convey intentions. However, current Vision-Language-Action (VLA) models treat robotic manipulation as a pure text-driven task, overlooking the important role of gestures in Human-Robot Interaction (HRI). This often leads to inaccurate intent grounding and unreliable manipulation when language instructions are ambiguous or underspecified. To address this challenge, we propose GIVE (Gesture Intent via Visual-Semantic Enhancement), an effective approach that enhances pre-trained VLA models with human gesture understanding without architectural modifications. Specifically, GIVE incorporates gesture information through two complementary pathways: a visual pathway that overlays hand skeletons and fingertip rays onto robot observations for explicit object grounding, and a semantic pathway that generates high-level descriptions of human gestures and task instructions for robust intent grounding. By jointly leveraging visual and semantic guidance, GIVE enables VLA policies to better associate gestures with manipulation behaviors and adapt to dynamic interaction intents. In real-world HRI experiments, GIVE substantially outperforms the baseline, improving target object recognition accuracy by 40% and overall task success rate by 80%, while demonstrating strong robustness and generalization to unseen spatial layouts and diverse participants.
- Abstract(参考訳): 人間のコミュニケーションは本質的にマルチモーダルであり、言語は意図を伝えるジェスチャーのような非言語的な手がかりを伴っていることが多い。
しかしながら、現在のVision-Language-Action(VLA)モデルは、ヒューマン・ロボットインタラクション(HRI)におけるジェスチャーの重要な役割を見越して、純粋なテキスト駆動タスクとしてロボット操作を扱う。
これはしばしば、言語命令が曖昧であるか不明確であるときに、不正確な意図的根拠と信頼できない操作をもたらす。
この課題に対処するため,GIVE (Gesture Intent via Visual-Semantic Enhancement) を提案する。
特に、GIVEは2つの補完経路を通してジェスチャー情報を組み込む: 明示的な物体接地のためのロボット観察に手足と指先をオーバーレイする視覚経路と、人間のジェスチャーの高レベルな記述を生成する意味経路と、頑健な意図接地のためのタスク指示である。
視覚的および意味的なガイダンスを併用することにより、GIVEはVLAポリシーにより、ジェスチャーと操作動作をよりよく関連付け、動的インタラクションインテントに適応することができる。
実世界のHRI実験では、GIVEはベースラインを大幅に上回り、目標物体認識精度を40%向上し、全体のタスク成功率を80%向上させ、空間配置や多様な参加者に対して強い堅牢性と一般化を示した。
関連論文リスト
- Gaze2Act: Gaze-Conditioned Vision-Language-Action Policies for Interactive Robot Manipulation [24.026684861369386]
VLA(Vision-Language-Action)モデルは、最近、言語命令に従うことでロボット学習の可能性を強く示している。
どのオブジェクトが類似の候補と相互作用するか、どこでオブジェクトに作用するか、実行中にターゲットがどのように変化するかを記述するのは難しい。
複雑な対話操作のための動的かつ直感的な意図信号として人間の視線を利用する新しいVLAフレームワークであるGaze2Actを提案する。
論文 参考訳(メタデータ) (2026-05-28T17:37:16Z) - GesVLA: Gesture-Aware Vision-Language-Action Model Embedded Representations [19.347332945780273]
VLA(Vision-Language-Action)モデルは、知覚と行動の統一による汎用ロボット操作の強力な可能性を示している。
ジェスチャーを並列命令として導入し,GesVLA(Gesture-Aware Vision-Language-Action Model)を提案する。
実験結果から,ジェスチャを組み込むことにより,目標の接地精度と人間とロボットの相互作用効率が一貫した改善が得られた。
論文 参考訳(メタデータ) (2026-05-21T17:57:44Z) - IntentVLM: Open-Vocabulary Intention Recognition through Forward-Inverse Modeling with Video-Language Models [5.381126267099941]
本稿では,オープン語彙の人間の意図認識のための2段階のビデオ言語フレームワークIntentVLMを提案する。
IntrepidVLMは、意図的理解を目標候補生成に分解することで、認知科学における前方逆モデリングにインスパイアされている。
最先端の結果を最大80%の精度で達成し、特にベースライン性能を30%上回り、人間のパフォーマンスに匹敵する。
論文 参考訳(メタデータ) (2026-04-27T03:34:33Z) - Grounding Hierarchical Vision-Language-Action Models Through Explicit Language-Action Alignment [4.001668956134368]
透明にするためには、ロボットの自然言語通信はその動作と一致しなければならない。
既存の階層型ビジョン・ランゲージ・アクション(VLA)モデルは、チェーン・オブ・ソートと低レベルのアクションを通じて言語を生成することができる。
本稿では,視覚的観察と行動空間に関して,階層的なVLAサブタスク記述を基盤とした新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-07T09:03:12Z) - Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding [85.63710017456792]
FuSeは、不均一なセンサのモダリティに対する微調整型ビズモータ一般政策を可能にする新しいアプローチである。
FuSeは視覚,触覚,音などのモーダル性に対して共同で推論を必要とする挑戦的なタスクを実行できることを示す。
実世界での実験では、FuSeisはすべての基準ラインと比較して成功率を20%以上引き上げることができた。
論文 参考訳(メタデータ) (2025-01-08T18:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。