論文の概要: TaLK: Text-attributed Graph Dataset Distillation via Coupling Language Model with Graph-Aware Kernel
- arxiv url: http://arxiv.org/abs/2606.22975v1
- Date: Mon, 22 Jun 2026 07:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:08:28.851841
- Title: TaLK: Text-attributed Graph Dataset Distillation via Coupling Language Model with Graph-Aware Kernel
- Title(参考訳): TaLK: グラフ対応カーネルとの結合言語モデルによるテキスト分散グラフデータセット蒸留
- Authors: Yeongho Kim, Yeonje Choi, Kijung Shin,
- Abstract要約: テキスト分散グラフ(TAG)は多くの現実世界のドメインで広く使われている。
TAGをモデリングするための標準的なアプローチは、言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせることである。
グラフ認識型ニューラルネットワークカーネルとLMを結合したTAGの効率的なデータセット蒸留法であるTaLKを提案する。
- 参考スコア(独自算出の注目度): 27.291192118556037
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Text-attributed graphs (TAGs) are widely used in many real-world domains, and learning on TAGs requires jointly modeling text semantics and graph structure. A standard approach for modeling TAGs is to combine a language model (LM) and a graph neural network (GNN), but joint training is computationally expensive and difficult to scale. Dataset distillation is a promising way to reduce training costs, but existing methods are not well suited to TAGs because they are typically designed for a single modality or still require repeatedly training expensive LM-GNN models on the full dataset during distillation. To address this, we propose TaLK, an effective dataset distillation method for TAGs that couples an LM with a graph-aware neural tangent kernel.This design enables efficient dataset distillation, avoiding repeated joint training on the full dataset while reflecting both textual and structural information for effective TAG learning.Experiments on multiple TAG benchmarks show that TaLK consistently outperforms existing baselines and achieves up to 97% of full-dataset performance with only 1% synthetic data.
- Abstract(参考訳): テキスト分散グラフ(TAG)は多くの現実世界のドメインで広く使われており、TAGでの学習にはテキスト意味論とグラフ構造を共同でモデル化する必要がある。
TAGをモデリングするための標準的なアプローチは、言語モデル(LM)とグラフニューラルネットワーク(GNN)を組み合わせることである。
データセットの蒸留は、トレーニングコストを削減するための有望な方法であるが、既存の方法は単一のモダリティのために設計されているか、蒸留中に高価なLM-GNNモデルをフルデータセットで繰り返し訓練する必要があるため、TAGにはあまり適していない。
本設計では,TAG学習に有効なテキスト情報と構造情報の両方を反映しながら,完全なデータセット上での反復的な共同学習を回避し,効率的なデータセット蒸留を可能にする。複数のTAGベンチマークによる実験の結果,TaLKは既存のベースラインを一貫して上回り,1%の合成データで最大97%のフルデータセット性能を実現している。
関連論文リスト
- Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - TabGLM: Tabular Graph Language Model for Learning Transferable Representations Through Multi-Modal Consistency Minimization [2.1067477213933503]
TabGLM (Tabular Graph Language Model) はテーブルの構造情報と意味情報の両方をモデル化する新しいマルチモーダルアーキテクチャである。
テーブルの各行を完全に連結されたグラフとシリアライズされたテキストに変換し、それぞれグラフニューラルネットワーク(GNN)とテキストエンコーダを使って符号化する。
25のベンチマークデータセットに対する評価は、大幅なパフォーマンス向上を示している。
論文 参考訳(メタデータ) (2025-02-26T05:32:45Z) - UniGLM: Training One Unified Language Model for Text-Attributed Graph Embedding [31.464021556351685]
統一グラフ言語モデル(Unified Graph Language Model、UniGLM)は、グラフ埋め込みモデルであり、ドメイン内およびドメイン間TAGの両方によく一般化する。
UniGLMには、構造的に類似したノードを特定するための適応的な正のサンプル選択技術と、トレーニングを加速するために考案された遅延コントラストモジュールが含まれている。
論文 参考訳(メタデータ) (2024-06-17T19:45:21Z) - Improving Text Embeddings with Large Language Models [59.930513259982725]
合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現するための,新しい簡易な手法を提案する。
我々は、93言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成するために、プロプライエタリなLLMを活用している。
実験により,ラベル付きデータを使わずに,高度に競争力のあるテキスト埋め込みベンチマークにおいて高い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-31T02:13:18Z) - Efficient End-to-end Language Model Fine-tuning on Graphs [21.23522552579571]
Text-Attributed Graphs (TAGs) からの学習は、その幅広い現実世界のアプリケーションのために大きな注目を集めている。
我々は,TAG上での言語モデルのエンドツーエンドな微調整のための,新規かつ効率的なアプローチであるLEAdingを紹介する。
提案手法は,Ogbn-arxiv のリーダーボード上で,最先端のSOTA(State-of-the-art)を達成し,優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-07T22:35:16Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。