論文の概要: LLM Features Can Hurt GNNs: Concatenation Interference on Homophilous Graph Benchmarks
- arxiv url: http://arxiv.org/abs/2606.17579v1
- Date: Tue, 16 Jun 2026 06:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.311163
- Title: LLM Features Can Hurt GNNs: Concatenation Interference on Homophilous Graph Benchmarks
- Title(参考訳): LLM機能でGNNをハントできる: ホモフレンドリーグラフベンチマークの結合干渉
- Authors: Zhongyuan Wang, Pratyusha Vemuri,
- Abstract要約: グラフニューラルネットワーク(GNN)にLLM生成ノード機能を追加することで、標準ベンチマークの精度が向上することが広く報告されている。
LLMの特徴が純粋に入力結合によって導入された場合、エンド・ツー・エンドのパイプラインが成功するホモフレンドリーなベンチマークにおいて、その精度を体系的に低下させることができる。
- 参考スコア(独自算出の注目度): 10.283803346813047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adding LLM-generated node features to graph neural networks (GNNs) is widely reported to improve accuracy on standard benchmarks. We document a contrasting observation: when LLM features are introduced through pure input concatenation (rather than joint training, distillation, or prompt-conditioning), they can systematically degrade accuracy on the same homophilous benchmarks where end-to-end LLM pipelines succeed. With an MLP backbone on the Planetoid public split and bag-of-words original features, concatenating SBERT-encoded GPT-4o-mini TAPE features reduces PubMed test accuracy by -17.0 +/- 0.3 pp and Cora by -4.3 +/- 0.6 pp (CiteSeer -0.6 +/- 0.8 pp, within seed noise). The drop attenuates as we relax each condition (GCN / GCNII / GAT backbones, random splits, smaller encoders) and reverses on medium-homophily WikiCS (+4.4 pp) and ogbn-arxiv (+11.7 pp). To predict when concatenation helps versus hurts, we report a simple measure of LLM-alone discriminability, Delta_sig. Across 9 datasets Delta_sig correlates with the concatenation cost more strongly than homophily at point estimate (r^2 = 0.38 vs. 0.06; N=9, bootstrap CIs overlap). The bootstrap-best change-point is tau = 13.8 pp, and the rule "Delta_sig <= tau predicts non-positive concat cost" classifies 7/9 datasets correctly; since 60% of bootstrap samples place tau in [5, 30] pp, we treat Delta_sig as an interpretive lens rather than a precision filter. A dimension-controlled ablation on PubMed places the LLM-feature drop between same-source PCA (-2.3 pp) and same-dim Gaussian noise (-37.3 pp), ruling out dimensionality and weight-decay artifacts. Nine PubMed configurations fit a power law |Delta_concat| proportional to (sqrt(d_l/n))^1.31 with r^2 = 0.97; the low-Delta_sig, small-n corner is exactly where the headline -17 pp PubMed deficit appears.
- Abstract(参考訳): グラフニューラルネットワーク(GNN)にLLM生成ノード機能を追加することで、標準ベンチマークの精度が向上することが広く報告されている。
我々は,LLM特徴が純粋な入力結合によって導入される場合(ジョイントトレーニング,蒸留,即時条件ではなく),エンド・ツー・エンドのLLMパイプラインが成功する同好性ベンチマーク上で,系統的に精度を低下させることができる。
SBERTで符号化されたGPT-4o-mini TAPE機能を組み合わせることで、PlanetoidのパブリックスプリットのMLPバックボーンとババ・オブ・ワードのオリジナル機能により、PubMedテストの精度は-17.0 +/- 0.3 pp、Colaは-4.3 +/- 0.6 pp(CiteSeer -0.6 +/- 0.8 pp、シードノイズ内)に低下する。
ドロップは各条件(GCN/GCNII/GATバックボーン、ランダムスプリット、エンコーダ)を緩和し、中間ホモフィリーWikiCS(+4.4 pp)とogbn-arxiv(+11.7 pp)を反転させる。
結束と傷の関連性を予測するため, LLM-alone 識別性 Delta_sig を簡易に測定した。
9つのデータセットにわたるDelta_sigは、点推定におけるホモフィリーよりも強い結合コスト(r^2 = 0.38 vs. 0.06; N=9, ブートストラップCIの重なり)と相関する。
Delta_sig <= tau predicts non- positive concat cost" は7/9データセットを正しく分類するが、ブートストラップサンプルの60%は[5, 30] pp に tau を配置するため、Delta_sig を精度フィルタではなく解釈レンズとして扱う。
PubMed上の次元制御アブレーションは、同一ソースPCA (-2.3 pp) と同一ディムガウスノイズ (-37.3 pp) の間のLCM-Feature drop を配置し、次元と重みが減るアーティファクトを除外する。
9つのPubMed構成は、r^2 = 0.97 の (sqrt(d_l/n))^1.31 に比例するパワー則 |Delta_concat| に適合する。
関連論文リスト
- Sequential Consensus for Multi-Agent LLM Debates: A Wald-SPRT compute governor with calibration-based failure detection [0.0]
マルチエージェントの議論は事実と推論を改善するが、ほとんどのレシピは固定されたラウンドカウントを選択する。
我々は,LLM討論のプラグイン計算として,Wald's Sequential Probability Ratio Test (SPRT)を適用した。
GSM8Kでは、ルールは1.01ラウンド(4.06 LLMコール)で97.0%の精度で終了するが、15回のコールで固定5の討論では99.0%の精度で終了する。
MMLUでは、キャリブレーションされたKLは約0に崩壊し、ルール上限は2.1倍のコストで99.5%となる。
論文 参考訳(メタデータ) (2026-05-18T23:43:12Z) - The Extrapolation Cliff in On-Policy Distillation of Near-Deterministic Structured Outputs [52.709361620508595]
ListOPDは、パラメータの5分の1で8B-SFTベースラインで、学生をドメイン内に持ち込む。
Amazon Fashionでは、3つの事前登録テスト — 細粒度崖間隔テスト、小さなクリップのクロス予測 — がロックされた予測ウィンドウ内に落下し、グリッド解像度以下のクローズドフォーム予測に一致する小さなクリップ値が設定されている。
論文 参考訳(メタデータ) (2026-05-09T06:48:00Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Thinking Forward: Memory-Efficient Federated Finetuning of Language Models [21.438831528354513]
連合学習環境における大規模言語モデル(LLM)の微調整には、リソース制約のあるデバイスに対して過剰なメモリを必要とする。
本稿では,LLMのトレーニング可能な重みをクライアント間で分割するFLアルゴリズムであるSpryを紹介する。
Spryはメモリフットプリントが低く、精度が高く、高速な収束を実現している。
論文 参考訳(メタデータ) (2024-05-24T13:37:48Z) - Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch [72.97553348776425]
スーパーバイザード・ファインチューニング (SFT) LMの能力に影響を与えることなく、ほとんどのデルタパラメータを設定するためにDAREを導入する。
次に、DAREを汎用プラグインとして使用し、複数のSFTモデルのデルタパラメータを分散し、それらを単一のモデルにマージする。
また、DAREを使用して、Open Leaderboardで70億のパラメータを持つモデルの中で、第1位にランクインした統合LMを作成します。
論文 参考訳(メタデータ) (2023-11-06T13:43:07Z) - Data-Free Dynamic Compression of CNNs for Tractable Efficiency [46.498278084317704]
構造化プルーニング手法は, 精度が大幅に低下することなく浮動小数点演算を低下させる可能性を示唆している。
HASTE(Hashing for Tractable Efficiency)は,データフリーでプラグイン・アンド・プレイのコンボリューションモジュールで,トレーニングや微調整なしにネットワークのテスト時間推論コストを瞬時に低減する。
CIFAR-10とImageNetでは46.72%のFLOPを1.25%の精度で削減した。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - Improving the Model Consistency of Decentralized Federated Learning [68.2795379609854]
フェデレートラーニング(FL)は中央サーバーを捨て、各クライアントは、分散化された通信ネットワークで隣人とのみ通信する。
既存のDFLは、ローカルクライアント間の不整合に悩まされ、FLFLに比べて劣る。
DFedSAMMGSを提案する。1lambda$はスペクトルゴシップ行列であり、$Q$はスパースデータギャップの数である。
論文 参考訳(メタデータ) (2023-02-08T14:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。