論文の概要: CAPruner: Conceptual-Adjacent Scene Graph Pruner for Enhancing 3D Spatial Reasoning of Large Language Models
- arxiv url: http://arxiv.org/abs/2606.07529v1
- Date: Tue, 21 Apr 2026 02:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.680146
- Title: CAPruner: Conceptual-Adjacent Scene Graph Pruner for Enhancing 3D Spatial Reasoning of Large Language Models
- Title(参考訳): CAPruner:大規模言語モデルの3次元空間推論を支援する概念的隣接Scene Graph Pruner
- Authors: Shengli Zhou, Xiangchen Wang, Guanhua Chen, Feng Zheng,
- Abstract要約: 本稿では,3次元視覚言語タスクのための概念隣接Scene Graph Pruner(CAPruner)を提案する。
CAPrunerはファジィ意味関係を空間的近接と統合し、関係の重要性を推定する。
実験により、CAPrunerは空間的推論に必要な関係を効果的に保存することを示した。
- 参考スコア(独自算出の注目度): 46.12472932894892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have recently been applied to 3D vision-language (3D-VL) tasks, which require spatial reasoning to identify target objects relative to anchors. Scene graphs are commonly employed to represent such relations, but reasoning over complete graphs incurs high token costs and computational inefficiencies, motivating the need for pruning. Existing pruning methods primarily rely on spatial proximity and often remove task-relevant relations, thereby undermining reliable spatial reasoning. To address these limitations, we derive a key requirement for scene graph pruning: preserving spatial relations that are most pertinent to the specific 3D-VL task. Guided by this insight, we propose the Conceptual-Adjacent Scene Graph Pruner (CAPruner). CAPruner integrates fuzzy semantic relevance with spatial proximity to estimate the importance of relations, enabling the selection of critical relations in a task-specific context. Moreover, to avoid costly relation-level annotations, CAPruner is trained by supervising the aggregated scores of each node's incident edges. Extensive experiments demonstrate that CAPruner effectively preserves relations essential for spatial reasoning, leading to substantial performance improvements of LLMs on 3D-VL tasks. Code is available at https://github.com/fz-zsl/CAPruner.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最近3次元視覚言語(3D-VL)タスクに応用され、アンカーの相対的な対象物を特定するために空間的推論を必要とする。
シーングラフはそのような関係を表すために一般的に使用されるが、完全なグラフの推論は高いトークンコストと計算の非効率性を生じさせ、刈り取りの必要性を動機付けている。
既存のプルーニング法は、主に空間的近接に頼り、しばしばタスク関連関係を取り除き、信頼性の高い空間的推論を損なう。
これらの制約に対処するために、シーングラフプルーニングのキー要件である、特定の3D-VLタスクに最も関係のある空間関係の保存を導出する。
この知見に導かれて,概念随伴グラフプルーナー (CAPruner) を提案する。
CAPrunerは、ファジィ意味関係を空間的近接と統合し、関係の重要性を推定し、タスク固有のコンテキストにおける臨界関係の選択を可能にする。
さらに、コストのかかる関係レベルのアノテーションを避けるために、CAPrunerは各ノードのインシデントエッジの集計スコアを監督することによって訓練される。
広汎な実験により、CAPrunerは空間的推論に必要な関係を効果的に保ち、3D-VLタスクにおけるLLMの性能を大幅に向上させることを示した。
コードはhttps://github.com/fz-zsl/CAPruner.comで入手できる。
関連論文リスト
- TAROT: Task-Adaptive Refinement of LLM-prior Graphs for Few-shot Tabular Learning [35.18087118865049]
TAROT は GNN ベースのフレームワークで,タスク適応型セマンティックグラフの構築と修正によって,その構造とセマンティックをエンコードする。
LLMの幻覚による構造ノイズを軽減するため、TAROTはタスク適応セマンティックグラフリファインメントを導入している。
論文 参考訳(メタデータ) (2026-06-10T04:02:57Z) - Hierarchical and Holistic Open-Vocabulary Functional 3D Scene Graphs for Indoor Spaces [116.57196064763924]
我々は、高密度テーブルトップオブジェクトと明示的なマルチレベル機能関係を導入することで、ベンチマークカバレッジを拡大する。
この研究は、小規模、高密度、および類似のインスタンスにかかわる重要な課題を提起する。
2次元視覚的グラウンドリングと3次元グラフ最適化に基づくオープン語彙パイプラインを提案する。
論文 参考訳(メタデータ) (2026-05-15T09:14:50Z) - Scalable Object Relation Encoding for Better 3D Spatial Reasoning in Large Language Models [50.14156501544165]
空間的推論は3次元シーンにおける空間的関係に基づく対象物の位置決めに焦点を当てる。
従来のアプローチでは、大規模言語モデルの入力空間に3Dシーン表現を注入しようと試みてきた。
オブジェクト数に線形な入力長を持つ新しい位置埋め込み法であるQuatRoPEを提案する。
論文 参考訳(メタデータ) (2026-03-25T18:46:23Z) - Relationship-Aware Hierarchical 3D Scene Graph for Task Reasoning [10.364779390403337]
本稿では,複数の抽象化レベルにまたがるオープン語彙機能を統合し,オブジェクト-リレーショナル推論をサポートする階層型3Dシーングラフを提案する。
本稿では,Large Language Models(LLM)とVLM(Vision Language Model)を組み合わせて,シーングラフのセマンティックおよびリレーショナル情報を解釈するタスク推論モジュールを提案する。
我々は,複数の環境やタスクにおいて,四足歩行ロボットに配置することで,その方法を検証する。
論文 参考訳(メタデータ) (2026-02-02T18:47:02Z) - Edge-Centric Relational Reasoning for 3D Scene Graph Prediction [74.19580969696898]
3Dシーングラフ予測は、複雑な3D環境をオブジェクトとそのペア関係からなる構造化グラフに抽象化することを目的としている。
既存のアプローチでは、接続されたオブジェクトノードからメッセージを集約することで、関係エッジ機能を反復的に更新するオブジェクト中心のグラフニューラルネットワークが一般的である。
本稿では,オブジェクト認識融合を用いたリンク誘導エッジ中心関係推論フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:53:56Z) - KeySG: Hierarchical Keyframe-Based 3D Scene Graphs [1.5134439544218246]
KeySGは3Dシーンを、床、部屋、オブジェクト、機能要素からなる階層的なグラフとして表現している。
我々はVLMを利用してシーン情報を抽出し、オブジェクト間の関係エッジを明示的にモデル化する必要性を緩和する。
我々のアプローチは、大規模シーングラフに関連するスケーラビリティ問題を緩和しながら、複雑であいまいなクエリを処理できる。
論文 参考訳(メタデータ) (2025-10-01T15:53:27Z) - Open-Vocabulary Octree-Graph for 3D Scene Understanding [54.11828083068082]
Octree-Graphはオープンな3Dシーン理解のための新しいシーン表現である。
セマンティクスを記憶し、その形状に応じてオブジェクトの占有度を調節するアダプティブ・オクツリー構造を開発する。
論文 参考訳(メタデータ) (2024-11-25T10:14:10Z) - Rel3D: A Minimally Contrastive Benchmark for Grounding Spatial Relations
in 3D [71.11034329713058]
既存のデータセットには、大規模で高品質な3D地上真実情報がない。
Rel3Dは、空間関係を3Dでグラウンド化するための、最初の大規模で人間による注釈付きデータセットである。
我々は、データセットバイアスを減らすための新しいクラウドソーシング手法である、最小限のコントラストデータ収集を提案する。
論文 参考訳(メタデータ) (2020-12-03T01:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。