Fugu-MT 論文翻訳(概要): VistaRef: Boosting Visual Spatial Orientation Awareness for Pointing-to-Object Detection

論文の概要: VistaRef: Boosting Visual Spatial Orientation Awareness for Pointing-to-Object Detection

arxiv url: http://arxiv.org/abs/2606.24498v1
Date: Tue, 23 Jun 2026 12:30:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:48.941391
Title: VistaRef: Boosting Visual Spatial Orientation Awareness for Pointing-to-Object Detection
Title（参考訳）: VistaRef:ポインティング・ツー・オブジェクト検出のための空間的指向性を高める
Authors: Ling Li, Zhizhen Cai, Xinkun Wu, Ziyu Zhu, Jiaqing Lyu, Bowen Liu, Zhidong Deng,
Abstract要約: 自然画像における難解なジェスチャーの接地は、ARと人間とロボットのコラボレーションに不可欠である。 VistaRefは空間的指向の意識を高めるために設計されたフレームワークである。
参考スコア（独自算出の注目度）: 19.163908796279802
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Grounding deictic gestures in natural images is fundamental to AR and human-robot collaboration, providing a basis for seamless spatial interaction. While Transformer-based visual models have achieved significant progress in general object detection, their global attention mechanisms often neglect micro-geometric relationships, degrading orientation accuracy. In pointing tasks, this deficiency manifests as an inability to accurately capture the pointing ray implied by finger poses, which results in pointing drift and localization ambiguity when dealing with distant or densely packed objects. To address this, we propose VistaRef, a framework designed to explicitly enhance spatial orientation awareness. First, we develop the Local Hand Entity Modeling (LHEM) module, which incorporates hand-pose embeddings to strengthen the model's capability to capture subtle finger deviations. Second, drawing inspiration from multi-view geometry, we construct the Geometric Ray Modeling (GRM) module to transform implicit orientation information into explicit spatial geometric features, guiding feature aggregation and deep fusion via attention mechanisms. Furthermore, we introduce a novel Orientation-Consistent Alignment Loss (OCAL) to synergistically supervise hand presence and pointing consistency, ensuring that all architectural improvements collectively serve the core objective of spatial localization. Experimental results demonstrate that VistaRef significantly outperforms the baseline, achieving a 14-point absolute gain in grounding accuracy. Qualitative analysis further confirms that VistaRef effectively models the geometric correlation from hand to target, bridging the spatial perception gap inherent in traditional Transformers for complex scenarios. Code: https://github.com/lingli1724/VistaRef.
Abstract（参考訳）: 自然画像における難解なジェスチャーの接地は、ARと人間とロボットのコラボレーションの基礎であり、シームレスな空間的相互作用の基礎となる。トランスフォーマーに基づく視覚モデルは、一般的な物体検出において顕著な進歩を遂げてきたが、そのグローバルな注意機構は、しばしばマイクロ幾何学的関係を無視し、方向の精度を劣化させる。ポインティング・タスクにおいて、この欠損は指のポーズによって示唆されるポインティング・レイを正確に捉えることができないことを示し、その結果、遠方または密集した物体を扱う際に、ドリフトと局所化の曖昧さが生じる。そこで本稿では,空間的指向性意識を高めるためのフレームワークであるVistaRefを提案する。まず,手指の微妙な偏差を捉えるために手指の埋め込みを組み込んだLHEM(Local Hand Entity Modeling)モジュールを開発した。第2に,多視点形状からインスピレーションを得たGeometric Ray Modeling (GRM) モジュールを構築し,暗黙の配向情報を空間幾何学的特徴に変換し,特徴集約と注意機構による深部融合を導出する。さらに,共同で手の位置を監督し,一貫性を指摘し,すべてのアーキテクチャ改善が空間的ローカライゼーションのコア目標となることを保証するために,OCAL(Orientation-Consistent Alignment Loss)を導入した。実験の結果、VistaRefはベースラインを著しく上回り、グラウンド精度で14ポイントの絶対ゲインを達成した。定性的分析により、VistaRefは手から対象までの幾何学的相関を効果的にモデル化し、複雑なシナリオにおいて従来のトランスフォーマーに固有の空間的知覚ギャップを埋めることを確認した。コード:https://github.com/lingli1724/VistaRef。

関連論文リスト

PointVG-R: Internalizing Geometric Reasoning in MLLMs for Precise Pointing Localization via Visual Chain of Thought [19.680475189691965]
ポインティングに基づく視覚的グラウンドリングでは、視覚シーンとポインティングジェスチャの間の複雑な空間的関係を解読することで、ターゲットオブジェクトを正確に特定する必要がある。推論誘導型マルチモーダル言語モデル(MLLM)であるPointVG-Rを提案する。我々は,人間の指し示すジェスチャーを解釈する際に使用する反復的認知過程をシミュレートする,新しい幾何学的推論パイプラインを設計する。
論文参考訳（メタデータ） (2026-06-23T13:06:51Z)
Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。 PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文参考訳（メタデータ） (2026-03-26T08:31:06Z)
RDD: Robust Feature Detector and Descriptor using Deformable Transformer [8.01082121187363]
本稿では,新規かつ堅牢なキーポイント検出器/ディスクリプタであるRobust Deformable Detector (RDD)を提案する。我々は、変形可能な注意が鍵となる位置に焦点を当て、探索空間の複雑さを効果的に減らすことを観察した。提案手法は,スパースマッチングタスクにおいて,最先端のキーポイント検出/記述手法よりも優れている。
論文参考訳（メタデータ） (2025-05-12T19:24:45Z)
Guiding Human-Object Interactions with Rich Geometry and Relations [21.528466852204627]
既存の手法では、物体の遠心点や人間に最も近い点のような単純化された物体表現に頼り、物理的に可算な運動を達成する。 ROGは、HOIに固有の関係をリッチな幾何学的詳細で表現する新しいフレームワークである。 ROGは, 合成HOIのリアリズム評価と意味的精度において, 最先端の手法を著しく上回ることを示す。
論文参考訳（メタデータ） (2025-03-26T02:57:18Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
Geometric Features Enhanced Human-Object Interaction Detection [11.513009304308724]
我々は、新しいエンドツーエンド変換方式HOI検出モデル、すなわち幾何学的特徴強化HOI検出器(GeoHOI)を提案する。モデルの1つの重要な部分は、UniPointNetと呼ばれる新しい統合された自己教師付きキーポイント学習方法である。 GeoHOIはトランスフォーマーをベースとしたHOI検出器を効果的にアップグレードする。
論文参考訳（メタデータ） (2024-06-26T18:52:53Z)
PointOBB: Learning Oriented Object Detection via Single Point Supervision [55.88982271340328]
本稿では,オブジェクト指向物体検出のための最初の単一点ベース OBB 生成法である PointOBB を提案する。 PointOBBは、オリジナルビュー、リサイズビュー、ローテーション/フリップ(rot/flp)ビューの3つのユニークなビューの協調利用を通じて動作する。 DIOR-RとDOTA-v1.0データセットの実験結果は、PointOBBが有望な性能を達成することを示す。
論文参考訳（メタデータ） (2023-11-23T15:51:50Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文参考訳（メタデータ） (2022-10-05T08:32:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。