論文の概要: CoCoSI: Collaborative Cognitive Map Construction for Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2606.10401v2
- Date: Wed, 10 Jun 2026 09:54:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 14:23:44.386275
- Title: CoCoSI: Collaborative Cognitive Map Construction for Spatial Intelligence
- Title(参考訳): CoCoSI:空間情報のためのコラボレーティブ認知マップの構築
- Authors: Yiming Zhang, Ruoxuan Cao, Zhihang Zhong,
- Abstract要約: 本研究では,空間記憶として認知マップを協調的に構築するプラグイン・アンド・プレイフレームワークを提案する。
本フレームワークは,局所的なエージェント調整,原子コミットによる認知マップ構築,エージェント間検証を特徴とする。
- 参考スコア(独自算出の注目度): 13.747177758222364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial intelligence is a key frontier for multimodal large language models (MLLMs), enabling them to reason about the physical world from visual experience. Inspired by human spatial cognition, recent approaches construct grid-based cognitive maps from multi-frame visual inputs to maintain coherent spatial representations over time. However, limited context lengths still challenge spatial understanding, while existing methods, such as long-context modeling and external memory, often require architectural changes, memory modules, or finetuning, limiting their applicability to off-the-shelf pretrained MLLMs. This motivates a lightweight, model-agnostic method for preserving spatial information beyond the native context window. To this end, we propose a plug-and-play multi-agent framework that collaboratively constructs cognitive maps as structured spatial memory, enhancing the spatial understanding of arbitrary pretrained MLLMs without architectural modification or additional training. Our framework features local-global agent coordination, cognitive map construction with atomic commits, and cross-agent verification. Extensive experiments demonstrate that our method achieves superior performance on spatial understanding tasks while remaining fully training-free. Code will be released.
- Abstract(参考訳): 空間知能はマルチモーダルな大言語モデル(MLLM)の鍵となるフロンティアであり、視覚的な経験から物理世界を考えることができる。
人間の空間認識に触発されて、近年のアプローチでは、多フレーム視覚入力からグリッドベースの認知マップを構築し、時間とともにコヒーレントな空間表現を維持する。
しかし、長いコンテキストモデリングや外部メモリのような既存の手法では、しばしばアーキテクチャの変更やメモリモジュール、微調整が必要であり、既製のMLLMに応用できる範囲は限られている。
これは、ネイティブコンテキストウィンドウを超えて空間情報を保存するための軽量でモデルに依存しない方法である。
そこで本稿では,構造化空間記憶として認知地図を協調的に構築するプラグイン・アンド・プレイ型マルチエージェント・フレームワークを提案する。
本フレームワークは,局所的なエージェント調整,原子コミットによる認知マップ構築,エージェント間検証を特徴とする。
実験により, 空間理解タスクにおいて, 完全学習を継続しながら, 優れた性能を発揮できることが実証された。
コードはリリースされる。
関連論文リスト
- SpatialImaginer: Towards Adaptive Visual Imagination for Spatial Reasoning [67.67774742200626]
空間知能は、視覚的な観察から幾何学的および物理的構造を推論する能力を指すもので、大きな言語モデルにとって重要な課題である。
テキスト推論と視覚的想像力を組み合わせた統合型マルチモーダル生成フレームワークを提案する。
本フレームワークでは,高レベルなセマンティックプランニングのためのテキストチェーンと,幾何感応的な状態変換と整合性保存のための視覚的想像力を用いて,分割・対数戦略を採用している。
論文 参考訳(メタデータ) (2026-04-19T11:21:59Z) - OnlineSI: Taming Large Language Model for Online 3D Understanding and Grounding [53.33067495235966]
OnlineSIは、ビデオストリームが与えられた周囲の空間的理解を改善するためのフレームワークである。
私たちの中核となる考え方は、過去の観測を維持するために有限空間記憶を維持することです。
さらに3Dポイントのクラウド情報を意味情報と統合し、MLLMがシーン内のオブジェクトをよりよく見つけ、識別するのに役立つ。
論文 参考訳(メタデータ) (2026-01-23T08:17:57Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - COOPER: A Unified Model for Cooperative Perception and Reasoning in Spatial Intelligence [57.63155257058967]
我々は,統合MLLMが空間知覚を高める本質的な能力を発達させ,適応的インターリーブ推論により,より強力な空間知性を実現することができるかどうかを検討する。
深度とセグメンテーションを補助モダリティとして活用し,補助モダリティ生成と適応的,インターリーブな推論能力を得るために2段階の訓練を施した統合MLLMである textbfCOOPER を提案する。
論文 参考訳(メタデータ) (2025-12-04T08:26:04Z) - Words into World: A Task-Adaptive Agent for Language-Guided Spatial Retrieval in AR [8.295391485284298]
マルチモーダル大規模言語モデル(MLLM)と接地型視覚モデルを統合するモジュール型拡張現実(AR)エージェントシステムを提案する。
適応タスクエージェントはMLLMと座標認識ツールを協調して,クエリの複雑さに対処する。
このシステムは、人間のループ内改良を支援しながら、情報密度領域に人間の注意を誘導する。
論文 参考訳(メタデータ) (2025-11-29T03:29:15Z) - SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition [19.526371771173064]
空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。
既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。
本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:04:18Z) - Why Do MLLMs Struggle with Spatial Understanding? A Systematic Analysis from Data to Architecture [16.15618237704827]
データと建築の両面から空間的理解を体系的に分析する。
データの観点からは、トレーニングデータが増加するにつれて空間理解の性能は急速に収束する。
アーキテクチャの観点からは、空間的理解は言語モデルよりも視覚エンコーダ内の位置エンコーダに大きく依存していることが分かる。
論文 参考訳(メタデータ) (2025-09-02T14:22:43Z) - From reactive to cognitive: brain-inspired spatial intelligence for embodied agents [50.99942960312313]
Brain-inspired Space Cognition for Navigation (BSC-Nav) は、エンボディエージェントにおける構造化空間メモリの構築と活用のための統合されたフレームワークである。
BSC-Navは、エゴセントリックな軌跡と文脈的手がかりからアロセントリックな認知マップを構築し、意味的目標に沿った空間的知識を動的に回収する。
論文 参考訳(メタデータ) (2025-08-24T03:20:48Z) - Spatial Knowledge Graph-Guided Multimodal Synthesis [78.11669780958657]
本稿では,空間知識グラフによって導かれる新しいマルチモーダル合成手法を提案する。
実験では、方向や距離を含む多様な空間知識から合成されたデータにより、MLLMの空間知覚と推論能力が著しく向上する。
知識に基づくデータ合成のアイデアが空間知性の発展を促進することを願っている。
論文 参考訳(メタデータ) (2025-05-28T17:50:21Z) - EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。