論文の概要: Gold Points Sniper: Self-guided Visual Reasoning in VLM for Fine-grained Action Understanding
- arxiv url: http://arxiv.org/abs/2606.22409v1
- Date: Sun, 21 Jun 2026 09:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 18:24:17.124459
- Title: Gold Points Sniper: Self-guided Visual Reasoning in VLM for Fine-grained Action Understanding
- Title(参考訳): 金点スナイパー:細粒度アクション理解のための自己誘導型視覚推論
- Authors: Haodi Liu, Xinhang Yang, Kunda Yan, Sen Cui, Zeyu Zhang, Changshui Zhang,
- Abstract要約: Gold Points Sniper (GPS)は、自己誘導型マルチモーダル推論機能を備えた軽量な視覚言語モデルを促進する新しいフレームワークである。
我々の研究は、ロボットが人間の行動を安全に解釈できるように、家庭内ロボティクスにおけるきめ細かい行動理解のための信頼性の高い基盤を確立する。
- 参考スコア(独自算出の注目度): 30.463645590107035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robots operating in everyday environments must understand fine-grained human actions, intentions, and contextual cues from broad views where people occupy only small regions, a capability unmet by current systems. While open-vocabulary action recognition methods remain limited to assigning predefined labels, and vision-language models (VLMs) face an inherent trade-off between informational richness and factual fidelity in their outputs, neither approach achieves the deep semantic interpretation required for reliable human-robot interaction. We propose Gold Points Sniper (GPS), a novel framework that empowers lightweight VLMs with self-guided multimodal reasoning capabilities for fine-grained human action understanding. Our approach comprises three key modules: Gold Points Extractor trains VLMs to identify critical action-relevant details, Selective Socratic Questioner validates and refines these details through selective self-questioning, and Semantic Entailment Evaluator quantitatively assesses factual consistency using semantic entailment classification. Extensive experiments on our curated instruction-tuning dataset based on the CAP benchmark demonstrate that GPS-enhanced lightweight VLMs achieve substantial performance improvements, with some models reaching performance comparable to proprietary GPT-4o while maintaining superior factual accuracy. Our work establishes a reliable foundation for fine-grained action understanding in domestic robotics, enabling robots to safely interpret human behavior through information-dense yet factually grounded descriptions. Source code, training configurations, annotation prompts, and dataset details are released at https://github.com/Haodi-Liu/GPS-Gold-Point-Sniper.
- Abstract(参考訳): 日常の環境で動くロボットは、人々が小さな領域のみを占有する広い視点から、人間の行動、意図、文脈を詳細に理解しなければなりません。
オープン・ボキャブラリ・アクション認識法は、事前に定義されたラベルを割り当てることに限られており、視覚言語モデル(VLM)は、その出力における情報豊かさと事実的忠実さの間に固有のトレードオフに直面しているが、どちらのアプローチも信頼性の高い人間とロボットの相互作用に必要な深い意味論的解釈を達成できない。
金点スナイパー(Gold Points Sniper, GPS)は,人間の行動理解のための自己誘導型マルチモーダル推論機能を備えた軽量なVLMを実現する新しいフレームワークである。
提案手法は, 重要行動関連詳細を特定するためのVLM訓練, 選択的ソクラティック質問者による選択的自己問合せによる詳細の検証, セマンティック・エンテリメント・評価, セマンティック・エンテリメント・クラスによる事実整合性の定量的評価の3つの重要なモジュールから構成される。
CAPベンチマークに基づく実験により,GPSによる軽量VLMは,プロプライエタリなGPT-4oに匹敵する性能を保ちながら,優れた実測精度を維持しつつ,大幅な性能向上を実現していることが示された。
我々の研究は、家庭内ロボット工学におけるきめ細かい行動理解のための信頼性の高い基盤を確立しており、ロボットは情報深遠かつ現実的な説明を通じて人間の行動を安全に解釈することができる。
ソースコード、トレーニング設定、アノテーションプロンプト、データセットの詳細はhttps://github.com/Haodi-Liu/GPS-Gold-Point-Sniperで公開されている。
関連論文リスト
- Forging Spatial Intelligence: A Roadmap of Multi-Modal Data Pre-Training for Autonomous Systems [75.78934957242403]
自動運転車とドローンは、マルチモーダル搭載センサーデータから真の空間情報を必要とする。
本稿では,この目標に向かって進む中核的な技術群を同定し,マルチモーダル・プレトレーニングのためのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-30T17:58:01Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - GoalLadder: Incremental Goal Discovery with Vision-Language Models [38.35578010611503]
視覚環境における単一言語命令からRLエージェントを学習する新しい手法を提案する。
GoalLadderは、自然言語で指定されたタスクの完了にエージェントを近づける状態の漸進的な発見で動作する。
以前の作業とは異なり、GoalLadderはVLMのフィードバックを完全に信頼していない。
論文 参考訳(メタデータ) (2025-06-19T15:28:27Z) - From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models [5.660635614478238]
VLA(Vision-Language-Action)モデルは、汎用的で汎用的なロボットポリシーを作成することを約束する。
従来の模倣学習ベンチマークは言語命令の欠如のため不適当である。
言語命令,視覚,オブジェクトにまたがる10のサブカテゴリにまたがる50のシミュレーションベースのタスクの統合スイートを導入する。
論文 参考訳(メタデータ) (2025-06-11T16:52:18Z) - CIVET: Systematic Evaluation of Understanding in VLMs [1.760351767085873]
VLM(Vision-Language Models)は、様々なタスクにおいて競争力を発揮する。
対象物の性質と関係を制御・解釈可能な方法で研究する。
我々は,システマティC評価のための新しいフレームワークであるCIVETを紹介した。
論文 参考訳(メタデータ) (2025-06-05T15:27:16Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。