論文の概要: SMGFM: Spectral Multimodal Graph Pretraining for Multimodal-Attributed Graphs
- arxiv url: http://arxiv.org/abs/2606.12867v2
- Date: Tue, 16 Jun 2026 15:30:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.623835
- Title: SMGFM: Spectral Multimodal Graph Pretraining for Multimodal-Attributed Graphs
- Title(参考訳): SMGFM:マルチモーダル分布グラフのためのスペクトルマルチモーダルグラフ事前学習
- Authors: Zhengyu Wu, Xu Wang, Hongchao Qin, Xunkai Li, Guang Zeng, Rong-Hua Li, Guoren Wang,
- Abstract要約: マルチモーダル分布グラフ (MAG) は、テキスト、画像、その他のモダリティからのノードセマンティクスとグラフトポロジーを結合する。
SMGFMは,各モード固有のノード信号をグラフ周波数帯域に分解する,スペクトルマルチモーダルグラフ事前学習フレームワークである。
SMGFMはグラフレベルおよびモダリティレベルのタスクにまたがって最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 38.400117494307615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal-attributed graphs (MAGs) couple graph topology with node semantics from text, images, and other modalities. Traditional graph learning contextualizes node semantics by coupling topology with node features. However, this coupling design becomes troublesome in MAGs, where structure-induced and modality-intrinsic semantics may contribute differently to downstream tasks. Structure-induced semantics promote relational consistency through smooth topological variation, whereas modality-intrinsic semantics often encode local, fine-grained distinctions that should not be uniformly smoothed or aligned. Therefore, the key challenge is to identify semantic roles before cross-modal fusion. To this end, we leverage graph-frequency variation as a prior, where low-frequency components capture topology-consistent semantics and high-frequency components preserve modality-specific semantics. Based on this intuition, we propose SMGFM, a spectral multimodal graph pretraining framework that decomposes each modality-specific node signal into graph-frequency bands and assigns band-level semantic roles before cross-modal interaction. Concretely, SMGFM constructs frequency-resolved modality tokens with scalable Chebyshev filters, estimates their coupling reliability through topology-conditioned routing, and performs band-modality interaction before fusion. Its frequency-routed objectives align smooth consensus routes while preserving modality-specific routes, mitigating spatial-domain entanglement and uniform cross-modal alignment. Extensive experiments conducted on the MAG datasets demonstrate that SMGFM achieves state-of-the-art performance across graph-level and modality-level tasks.
- Abstract(参考訳): マルチモーダル分布グラフ (MAG) は、テキスト、画像、その他のモダリティからのノードセマンティクスとグラフトポロジーを結合する。
従来のグラフ学習は、トポロジとノードの特徴を結合することで、ノードのセマンティクスを文脈化します。
しかし、この結合設計は、構造的およびモダリティ固有の意味論が下流のタスクに異なる形で寄与する MAG において厄介なものとなる。
構造によって引き起こされる意味論は、滑らかなトポロジカルな変動を通じて関係性の一貫性を促進するが、一方、モダリティ-内在的な意味論は、一様に滑らかにしたり整列してはならない局所的、きめ細かい区別を符号化することが多い。
したがって、重要な課題は、クロスモーダル融合の前に意味的役割を特定することである。
これにより,低周波成分がトポロジ一貫性セマンティクスを捕捉し,高周波成分がモダリティ固有セマンティクスを保存する。
この直感に基づいて、SMGFMというスペクトルマルチモーダルグラフ事前学習フレームワークを提案し、各モーダル固有ノード信号をグラフ周波数帯域に分解し、クロスモーダル相互作用の前にバンドレベルの意味的役割を割り当てる。
具体的には、SMGFMは、スケーラブルなチェビシェフフィルタを用いて周波数分解モダリティトークンを構築し、トポロジー条件のルーティングを通じて結合信頼性を推定し、融合前にバンド-モダリティ相互作用を実行する。
周波数制限された目的は、円滑なコンセンサス経路を整列し、モダリティ固有のルートを保持し、空間領域の絡み合いを緩和し、一様のクロスモーダルアライメントを緩和する。
MAGデータセット上で行った大規模な実験により、SMGFMはグラフレベルおよびモダリティレベルのタスクで最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Beyond the Aggregation Dilemma: Prior-Retaining Decoupled Learning for Multimodal Graphs [69.56407708794845]
MultimodalAttributed Graph Learning (MAGL)はグラフアグリゲーションを通じてノード属性と構造トポロジーを統合する。
事前訓練されたエンコーダがLarge Foundation Models (LFM) へと進化するにつれて、MAGLのランドスケープは根本的に変化していく。
高信頼のLFM先行の下では、強制集約は、識別シグナルを圧倒するトポロジカル固有のノイズを導入する。
本稿では、分離されたデュアルパスパラダイムであるSUPRA(Shared-Unique Prior-Retaining Architecture)を提案する。
SUPRAは、トポロジ・アグノシクスによるモーダリティ特異的な特徴を処理し、軽量共有GNNを介して構造相乗効果を捉え、補助的な深層監視対策の勾配飢餓を発生させる。
論文 参考訳(メタデータ) (2026-05-23T17:42:25Z) - GOMA: Toward Structure-Driven Multimodal Alignment from a Graph Signal Smoothing Perspective [39.44851011793204]
凍結したマルチモーダル埋め込みをグラフ信号として見る構造駆動のポストアライメントフレームワークを提案する。
GOMAは、メッセージがどこに流れるべきか、マルチモーダルエビデンスがどのように伝播するか、どのスムーズな深さを維持するべきかという3つの重要な設計選択を分離している。
すべての実験は、グラフがラベルのないコンテキストとしてのみ機能し、対角方向の自己対向エッジを除去する、トランスダクティブなMAG検索プロトコルに従う。
論文 参考訳(メタデータ) (2026-05-15T08:21:22Z) - Decoupled and Divergence-Conditioned Prompt for Multi-domain Dynamic Graph Foundation Models [59.8742208800447]
分離および分散条件付きプロンプトに基づく動的グラフ基礎モデルであるDyGFMを提案する。
DyGFMは、ノード分類とリンク予測の両方において、12の最先端のベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-05-13T13:50:03Z) - TMTE: Effective Multimodal Graph Learning with Task-aware Modality and Topology Co-evolution [12.027339810975079]
Task-Aware Modality and Topology co-Evolution (TMTE)は、グラフトポロジとマルチモーダル表現を協調的に目標タスクに向けて最適化する新しいMGLフレームワークである。
TMTEは、6つのグラフ中心およびモダリティ中心のタスクにまたがる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2026-03-29T14:54:59Z) - OptiMAG: Structure-Semantic Alignment via Unbalanced Optimal Transport [37.640303159988015]
マルチモーダル分散グラフ(MAG)は、テキストや画像などのマルチモーダル情報をノード上で統合することにより、複雑なシステムのモデリングに広く採用されている。
異なるモダリティ埋め込みによって誘導される暗黙的な意味構造と明示的なグラフ構造との相違を同定する。
既存のメソッドは通常、固定された明示的なグラフ構造上でメッセージパッシングを実行するため、それらは必然的に異なる特徴を集約する。
我々は,不均衡な最適輸送に基づく正規化フレームワークOptiMAGを提案する。
論文 参考訳(メタデータ) (2026-01-30T11:29:03Z) - Modality as Heterogeneity: Node Splitting and Graph Rewiring for Multimodal Graph Learning [10.65673380743972]
本稿では,ノード分割とグラフ交換機構を統合したマルチモーダルグラフ学習フレームワークNSG(Node Splitting Graph)-MoEを提案する。
各ノードをモダリティ固有のコンポーネントに明示的に分解し、不均一なメッセージフローを処理するためにリレーションアウェアの専門家を割り当てる。
3つのマルチモーダルベンチマークの実験は、NSG-MoEが強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2026-01-20T13:38:50Z) - Improving LLM Reasoning with Homophily-aware Structural and Semantic Text-Attributed Graph Compression [55.51959317490934]
大規模言語モデル(LLM)は、テキスト分散グラフ(TAG)理解において有望な能力を示している。
グラフは本来、構造情報や意味情報を豊富に含むものであり、それらの有効利用はLLMの推論性能の潜在的な利益を解放する可能性があると論じる。
グラフホモフィリーの活用を目的としたフレームワーク LLMs (HS2C) のホモフィリー対応構造とセマンティック圧縮を提案する。
論文 参考訳(メタデータ) (2026-01-13T03:35:18Z) - MetaHGNIE: Meta-Path Induced Hypergraph Contrastive Learning in Heterogeneous Knowledge Graphs [16.36978652807043]
本稿ではメタパスによるハイパーグラフ学習フレームワークであるMetaHGNIEを提案する。
本結果は,異種知識グラフにおける高次相互作用と相互アライメントを明示的にモデル化することの有効性を強調した。
論文 参考訳(メタデータ) (2025-12-13T22:21:33Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。