論文の概要: 3D-PLOT-LLM: Part-Level Object Tokens for 3D Large Language Models
- arxiv url: http://arxiv.org/abs/2606.19828v1
- Date: Thu, 18 Jun 2026 06:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.680187
- Title: 3D-PLOT-LLM: Part-Level Object Tokens for 3D Large Language Models
- Title(参考訳): 3D-PLOT-LLM:3次元大規模言語モデルのための部分レベルオブジェクトトークン
- Authors: Jintang Xue, Xinyu Wang, Yixing Wu, Jingwen Chen, C. -C. Jay Kuo,
- Abstract要約: 3Dマルチモーダルな大言語モデル(3D MLLMs)は3Dオブジェクト全体を記述しているが、その部分への対処、名前、推論はできない。
我々は、入力トークンストリームを再編成し、LLM自身の語彙を通して直接アドレス化できるようにします。
我々のモデルである3D-PLOT-LLMは、凍結点エンコーダのパッチを局所的にコヒーレントな領域に分割し、各領域のパッチトークンの前に挿入する。
マーカー空間リファインメント(MSR)モジュールは、各マーカーをその領域の空間統計および隣接近傍に条件付ける。
- 参考スコア(独自算出の注目度): 23.683648831219116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D multimodal large language models (3D MLLMs) describe a 3D object as a whole but cannot address, name, or reason about its parts. Prior part-aware attempts add segmentation decoders, heavier 3D encoders, or bounding-box grammars at substantial parameter cost. We take a fundamentally different path: we reorganize the input token stream so that parts become directly addressable through the LLM's own vocabulary. Our model, 3D-PLOT-LLM, partitions the frozen point encoder's patches into K locally coherent regions and inserts, before each region's patch tokens, a learnable per-region marker and a reserved vocabulary token <part_k>; a Marker-Space Refinement (MSR) module then conditions each marker on its region's spatial statistics and adjacency neighbors. The model thus cites parts in its output and follows prompts that refer to parts by token, a capability absent from prior object-level 3D MLLMs. To probe this interface, we construct PartVerse-QA, a vocabulary-level part-QA benchmark adapted from PartVerse mesh annotations (77K training pairs and 588 held-out queries on disjoint object splits), on which 3D-PLOT-LLM reaches caption-to-slots Jaccard 0.459 and Exact-match 13.78%, with a slot-to-caption GPT-4o judge of 44.68. On the 3DCoMPaT-GrIn part-aware grounded description benchmark, 3D-PLOT-LLM outperforms PointLLM, Kestrel, PARIS3D, and SegPoint on every text-output metric, and ShapeLLM on 3 of 4, with up to +3.03 GPT-4o judge over PointLLM. On Objaverse whole-object captioning, adding PartVerse-QA at Stage 2 yields +0.65 SBERT and +1.85 GPT-4o over PointLLM, and tops PointLLM-PiSA on 4 of 5 traditional metrics (SBERT, SimCSE, BLEU-1, METEOR) despite targeting a different (part-grounded) objective. All with under 1M new trainable parameters on a frozen point encoder, an order of magnitude below prior part-aware 3D MLLMs, and no segmentation decoder or bounding-box head.
- Abstract(参考訳): 3Dマルチモーダルな大言語モデル(3D MLLMs)は3Dオブジェクト全体を記述しているが、その部分への対処、名前、推論はできない。
以前のパートアウェアの試みでは、セグメンテーションデコーダ、重い3Dエンコーダ、あるいはかなりのパラメータコストでバウンディングボックス文法を追加していた。
我々は、入力トークンストリームを再編成し、LLM自身の語彙を通して直接アドレス化できるようにします。
我々のモデルである3D-PLOT-LLMは、凍結した点エンコーダのパッチをK領域に分割し、各領域のパッチトークン、学習可能な各領域マーカー、予約された語彙トークン<part_k>の前に挿入する。
したがって、モデルは出力の部品を引用し、トークンによって部品を参照するプロンプトに従う。
このインターフェースを探索するために、PartVerseメッシュアノテーション(77Kのトレーニングペアと588の保持クエリ)から適応した語彙レベルのPartVerse-QAベンチマークを構築し、3D-PLOT-LLMがキャプション・ツー・スロットのJaccard 0.459とExact-match 13.78%に到達し、スロット・ツー・キャプションのGPT-4oを44.68と判定した。
3DCoMPaT-Grでは、3D-PLOT-LLMがPointLLM、Kestrel、PARIS3D、SegPointをすべてのテキスト出力メトリックで上回り、4の3でShapeLLMが+3.03 GPT-4oを判定する。
Objaverseの全体オブジェクトキャプションでは、ステージ2でPartVerse-QAを追加すると、ポイントLLMより+0.65 SBERTと+1.85 GPT-4oが得られ、ポイントLLM-PiSAは、異なる(部分的な)目的を目標としながら、5つの伝統的なメトリクス(SBERT、SimCSE、BLEU-1、METEOR)のうち4つのうちトップとなる。
フリーズポイントエンコーダには100万以下の新しいトレーニング可能なパラメータがあり、3D MLLMより下位の桁数であり、セグメンテーションデコーダもバウンディングボックスヘッドもない。
関連論文リスト
- PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding [41.210392758568126]
PAR3Dは、モデルが3Dシーンでオブジェクトとその部分を理解し、推論し、グラウンドすることを可能にする、統合された部分認識3D-MLLMフレームワークである。
提案手法は,部分レベルの質問応答とセグメンテーションの参照を大幅に改善するとともに,オブジェクトレベルの視覚言語タスクに対して高い性能を実現する。
論文 参考訳(メタデータ) (2026-06-04T17:59:04Z) - SSR3D-LLM: Structured Spatial Reasoning via Latent Steps for Fine-Grained Grounding in Unified 3D-LLMs [20.639795141272394]
3Dオブジェクトグラウンドは、自然言語から参照オブジェクトを3Dシーンにローカライズする。
統一インスタンス中心の3D-LLMは、ダイアログ、QA、キャプションと共にグラウンド化を解決することを目的としている。
統一3D-LLMのための構造的接地インタフェースである構造的空間共振3D-LLMを提案する。
論文 参考訳(メタデータ) (2026-05-27T13:45:34Z) - PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - Point Linguist Model: Segment Any Object via Bridged Large 3D-Language Model [51.02616473941499]
大規模言語モデル(LLM)による3Dオブジェクトのセグメンテーションは、その広範囲なセマンティクス、タスクの柔軟性、強力な一般化により、広く普及しているパラダイムとなっている。
LLMは高レベルなセマンティックトークンを処理し、3次元の点雲は密度の高い幾何学的構造のみを伝達する。
本稿では,LLMと高密度3次元点雲の間の表現ギャップを橋渡しする一般フレームワークであるポイント言語モデル(PLM)を提案する。
論文 参考訳(メタデータ) (2025-09-09T15:01:28Z) - LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - 3D-GRES: Generalized 3D Referring Expression Segmentation [77.10044505645064]
3D参照式(3D-RES)は、自然言語の記述に基づいて、特定のインスタンスを3D空間内にセグメント化することを目的としている。
一般化された3D参照式(3D-GRES)は、自然言語命令に基づいて任意の数のインスタンスをセグメントする機能を拡張する。
論文 参考訳(メタデータ) (2024-07-30T08:59:05Z) - Kestrel: 3D Multimodal LLM for Part-Aware Grounded Description [33.55332803244455]
PPGD(Part-Aware Point Grounded Description)は3次元マルチモーダル学習の高度化を目的とした課題である。
本稿では3DCoMPaT Grounded Instructions (3DCoMPaT-GrIn)データセットについて述べる。
Kestrelは,言語理解のための高度な言語モデルと,多段階の特徴伝搬とクエリ改善機構を融合した,パートアウェアな3Dマルチモーダルな大規模言語モデルである。
論文 参考訳(メタデータ) (2024-05-29T09:43:48Z) - GPT4Point: A Unified Framework for Point-Language Understanding and Generation [73.45085345872523]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - Spatiality-guided Transformer for 3D Dense Captioning on Point Clouds [20.172702468478057]
3Dポイントクラウドでのディエンスキャプションは、オブジェクトレベルの3Dシーン理解を含む、視覚と言語に関する新たなタスクである。
本稿では,オブジェクトを記述に変換するトランスフォーマーベースのエンコーダデコーダアーキテクチャ,すなわちSpaCap3Dを提案する。
提案手法は, CIDEr@0.5IoUのベースライン法であるScan2Capを4.94%, CIDEr@0.5IoUで9.61%向上させる。
論文 参考訳(メタデータ) (2022-04-22T13:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。