論文の概要: Remember with Confidence: Uncertainty Quantification for Spatio-temporal Memory with Probabilistic Guarantees
- arxiv url: http://arxiv.org/abs/2606.08277v1
- Date: Sat, 06 Jun 2026 17:55:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.012765
- Title: Remember with Confidence: Uncertainty Quantification for Spatio-temporal Memory with Probabilistic Guarantees
- Title(参考訳): 信頼を忘れずに:確率的保証を伴う時空間記憶の不確実性定量化
- Authors: Harry Zhang, Nicolas Gorlo, Luca Carlone,
- Abstract要約: マルチビューVLMメモリにオブジェクトレベルのセマンティック不確実性を導入する。
我々は、不確実性により、具体化された4Dメモリシステムがより信頼性が高く、より効果的になることを示す。
- 参考スコア(独自算出の注目度): 18.36215679868457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-horizon robot operation requires spatio-temporal memory to record the environment state and recall it for downstream reasoning. Scene graphs and retrieval-augmented systems ground VLM descriptions to persistent 3D entities with rich semantic descriptions. However, VLM captions are noisy and viewpoint-inconsistent, and existing systems treat them as an oracle with no mechanism to detect unreliable stored descriptions. We introduce object-level semantic uncertainty for multi-view VLM memory: a score that measures object-centric cross-view semantic scatter of captions and identifies semantically unresolved objects. Then, we include our uncertainty scores in an advanced spatial-semantic memory system, that we dub UQ-DAAAM. UQ-DAAAM uses this score to actively refine uncertain objects under a fixed query budget by selecting high-quality views and fusing the resulting multi-view captions into a single object description. We also derive probabilistic guarantees showing that higher-quality candidate views (as selected by our approach) are more likely to reduce uncertainty. Our experiments show that uncertainty quantification can make embodied 4D memory systems more reliable and more effective. In particular, on the OC-NaVQA benchmark, UQ-DAAAM achieves substantially larger uncertainty reduction and better spatio-temporal question answering performance than baselines.
- Abstract(参考訳): ロングホライゾンロボットの動作は、環境状態を記録し、下流の推論のために記憶するために時空間記憶を必要とする。
シーングラフと検索拡張システムは、VLM記述をリッチなセマンティック記述を持つ永続的な3Dエンティティに基礎付ける。
しかし、VLMキャプションは騒々しく、視点に一貫性がないため、既存のシステムは、信頼できない保存された記述を検出するメカニズムを持たない託宣としてそれらを扱う。
本稿では,多視点VLMメモリにおけるオブジェクトレベルの意味的不確実性について紹介する。
そして、UQ-DAAAMをダブする高度な空間意味記憶システムに不確実性スコアを含める。
UQ-DAAAMはこのスコアを用いて、高品質なビューを選択し、その結果の複数ビューキャプションを単一のオブジェクト記述に融合することで、固定されたクエリ予算の下で不確実なオブジェクトを積極的に洗練する。
また、高い品質の候補視点(我々のアプローチが選択したように)が不確実性を減らす可能性が高いことを示す確率的保証を導出する。
実験により,不確実性の定量化により,具体化された4次元メモリシステムの信頼性が向上し,効率が向上することが示された。
特に、OC-NaVQAベンチマークでは、UQ-DAAAMはベースラインよりもはるかに大きな不確実性低減と時空間質問応答性能を実現している。
関連論文リスト
- TOC-Bench: A Temporal Object Consistency Benchmark for Video Large Language Models [9.648992690108086]
ビデオ大言語モデル(ビデオ-LLM)は、一般的なビデオ理解において大きな進歩を遂げているが、時間的オブジェクトの一貫性を維持する能力はいまだ探索されていない。
ビデオLLMにおける時間的オブジェクトの一貫性を評価するための診断ベンチマークであるTOC-Benchを紹介する。
論文 参考訳(メタデータ) (2026-05-11T02:47:59Z) - ReVSI: Rebuilding Visual Spatial Intelligence Evaluation for Accurate Assessment of VLM 3D Reasoning [59.558706734431276]
空間知能の現在の評価は、現代の視覚言語モデル(VLM)設定下で体系的に無効にすることができる。
本稿では,各QAペアが実際の入力の下で応答可能で正しいことを保証するためのベンチマークとプロトコルであるReVSIを紹介する。
論文 参考訳(メタデータ) (2026-04-27T10:45:51Z) - ME-IQA: Memory-Enhanced Image Quality Assessment via Re-Ranking [25.561100902733326]
本稿では,テスト時間メモリ強化型再ランクフレームワークME-IQAを紹介する。
メモリバンクを構築し、推論サマリーを使用してセマンティックおよび知覚的に一致した隣人を検索する。
ゲートリフレクションを実行し、メモリを統合して将来の意思決定を改善する。
論文 参考訳(メタデータ) (2026-03-21T12:23:08Z) - Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks [96.60530830276281]
RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
論文 参考訳(メタデータ) (2026-03-10T11:13:54Z) - CroBIM-V: Memory-Quality Controlled Remote Sensing Referring Video Object Segmentation [0.3099118620919279]
本稿では、データと方法論の二重貢献を通してRS-RVOSの研究を進める。
まず,111の動画シーケンス,約25,000のフレーム,213,000の時間参照アノテーションからなる最初の大規模ベンチマークであるRS-RVOS Benchを構築した。
第2に、セグメンテーションモデル(MQC-SAM)を用いたメモリ品質制御と呼ばれる、メモリ品質を考慮したオンライン参照セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-17T14:52:46Z) - Post-hoc Probabilistic Vision-Language Models [54.05237186168399]
視覚言語モデル(VLM)は、分類、検索、生成タスクにおいて顕著な成功を収めている。
追加トレーニングを必要としないVLMにおけるポストホック不確実性評価を提案する。
この結果から,大規模モデルの安全性クリティカルな応用が期待できることがわかった。
論文 参考訳(メタデータ) (2024-12-08T18:16:13Z) - Object Permanence Emerges in a Random Walk along Memory [37.78331373391444]
記憶の時間的コヒーレンスを最適化することで、物体の永続性が現れることを示す。
これにより、隠されたオブジェクトを格納し、その動きを予測し、よりローカライズするメモリ表現につながる。
結果として得られるモデルは、複雑さとリアリズムを増大させるいくつかのデータセットにおける既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-04-04T18:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。