Fugu-MT 論文翻訳(概要): From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs

論文の概要: From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs

arxiv url: http://arxiv.org/abs/2606.09134v1
Date: Mon, 08 Jun 2026 07:32:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:06.801756
Title: From USD Scenes to Knowledge Graphs: Zero-Shot Ontology Grounding with LLMs
Title（参考訳）: USDシーンから知識グラフへ:LLMによるゼロショットオントロジーグラウンド
Authors: Jiangtao Shuai, Zongxiong Chen, Manfred Hauswirth, Sonja Schimmler,
Abstract要約: 大きな言語モデル(LLM)は、ユニバーサルシーン記述シーンの基底ステップを自動化することができる。 LLMは記述的な名前で90-96%の精度で精度を達成している。セマンティックキューの匿名化は精度を0-6%に減らし、幾何学だけでは4-17%しか得られない。
参考スコア（独自算出の注目度）: 2.5007407263626775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Constructing knowledge graphs from 3D simulation scenes is essential for robot task reasoning, but the key bottleneck, grounding scene objects to formal ontology classes, still relies on manually curated dictionaries that are brittle and do not generalize across assets. We investigate whether large language models (LLMs) can automate this grounding step for Universal Scene Description (USD) scenes as a zero-shot, training-free alternative. On a kitchen scene (125 objects) with SOMA-HOME Ontology, LLMs achieve 90-96% exact-match accuracy with descriptive names and 49-89% with abbreviated names, substantially outperforming dictionary and embedding baselines. Under fully opaque names, context-augmented prompting recovers up to 48%. Feature ablation reveals that LLMs primarily exploit semantic cues in the scene graph (sibling names and parent paths); anonymizing these cues reduces accuracy to 0-6%, while geometry alone yields only 4-17%.
Abstract（参考訳）: 3Dシミュレーションシーンから知識グラフを構築することはロボットのタスク推論には不可欠だが、重要なボトルネックは、シーンオブジェクトを形式的なオントロジークラスにグラウンド化することだ。我々は,大言語モデル(LLM)が,ゼロショットでトレーニング不要な代替手段として,ユニバーサルシーン記述(USD)シーンに対して,この基礎的なステップを自動化できるかどうかを検討する。 SOMA-HOMEオントロジーを持つキッチンシーン(125オブジェクト)では、LCMは記述名で90～96%、短縮名で49～89%、辞書や埋め込みベースラインよりも大幅に優れている。完全に不透明な名前の下では、コンテキスト拡張プロンプトは最大48%回復する。特徴アブレーションは、LLMが主にシーングラフのセマンティックキュー(兄弟名と親パス)を利用しており、これらのキューの匿名化は精度を0-6%に低下させ、幾何学だけでは4-17%しか得られないことを示している。

関連論文リスト

LLM Meets Scene Graph: Can Large Language Models Understand and Generate Scene Graphs? A Benchmark and Empirical Study [12.90392791734461]
大規模言語モデル(LLM)は、組み込みAI、ロボティクス、その他の現実世界のタスクに応用を拡大するための道を開いた。最近の研究は、シーン内のエンティティ、属性、およびそれらの関係をエンコードする構造化された表現であるシーングラフを活用している。テキストシーングラフ(TSG)ベンチ(Text-Scene Graph)は,LLMのシーングラフ理解能力を評価するためのベンチマークである。
論文参考訳（メタデータ） (2025-05-26T04:45:12Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
DivScene: Towards Open-Vocabulary Object Navigation with Large Vision Language Models in Diverse Scenes [76.24687327731031]
まず,DivSceneを導入することにより,オープン語彙オブジェクトナビゲーションの課題について検討する。私たちのデータセットは、既存のデータセットよりもターゲットオブジェクトやシーンタイプがはるかに多様です。我々はLVLMを微調整し、CoTの説明で次の動作を予測する。
論文参考訳（メタデータ） (2024-10-03T17:49:28Z)
The Neglected Tails in Vision-Language Models [51.79913798808725]
視覚言語モデル(VLM)はゼロショット認識において優れているが,その性能は視覚的概念によって大きく異なる。ゼロショットVLMの不均衡性能を軽減するために,Retrieval-Augmented Learning (REAL)を提案する。
論文参考訳（メタデータ） (2024-01-23T01:25:00Z)
Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。 SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文参考訳（メタデータ） (2023-12-07T18:59:22Z)
LLM-Grounder: Open-Vocabulary 3D Visual Grounding with Large Language Model as an Agent [23.134180979449823]
3Dビジュアルグラウンドティングは、家庭用ロボットにとって重要なスキルであり、その環境に基づいて、オブジェクトをナビゲートし、操作し、質問に答えることを可能にする。 LLM-Grounderは,LLM(Large Language Model)をベースとした新しいゼロショット・オープンボキャブラリである。以上の結果から,LLMは,特に複雑な言語クエリにおいて,グラウンド化能力を大幅に向上することが示唆された。
論文参考訳（メタデータ） (2023-09-21T17:59:45Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。