論文の概要: DeRes: Decoupling Residual Stability and Adaptivity for Scalable CTR Prediction
- arxiv url: http://arxiv.org/abs/2606.07980v1
- Date: Sat, 06 Jun 2026 05:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.597918
- Title: DeRes: Decoupling Residual Stability and Adaptivity for Scalable CTR Prediction
- Title(参考訳): DeRes: スケーラブルCTR予測のための残留安定性と適応性を分離する
- Authors: Wenzhuo Cheng, Shipeng Nie, Qixin Guo, Xuefeng Sun, Jianguo Lou, Zhengwei Zheng,
- Abstract要約: トランスフォーマーベースのCTRモデルは、残差接続におけるボトルネックの増大に直面している。
最近の注意に基づく残差変種(AttnRes)は、言語モデルにおけるこの部分に対応する。
本稿では,各層を2つの並列経路にルートするDeReについて述べる。
- 参考スコア(独自算出の注目度): 0.343054185715673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based CTR models face a growing bottleneck at the residual connection: under Pre-Norm, early user-interest signals are diluted layer by layer; the identity skip cannot forget stale interests; and each layer sees only its immediate predecessor, losing long-range cross-layer dependencies. Recent attention-based residual variants (AttnRes) address parts of this in language models, but drop the protective identity skip and have not been tried in recommendation. Drawing on Dual Path Networks (DPN) and the HORNN view of residuals, we present DeRes, which routes each layer through two parallel paths -- an Identity residual path that preserves first-order feature reuse and gradient flow, and a Block Attention Residual path that attends over compressed outputs of all earlier blocks for high-order recall. A vector-wise gate decides, per hidden dimension, the weight given to each path. We further propose Pointwise AttnRes, replacing the Softmax in the cross-layer attention with SiLU so that multiple past blocks can be activated simultaneously and irrelevant ones receive negative (forgetting) weights -- better aligned with CTR's parallel multi-interest patterns. On a large-scale industrial dataset (331M interactions from a major social-media platform), Criteo (45M), and Avazu (40M), DeRes outperforms twelve baselines including OneTrans, TokenMixer-Large, UniMixer, mHC, and AttnRes, achieving up to +0.32% AUC at under 5% extra FLOPs. Beyond a single operating point, DeRes fits a markedly steeper compute-AUC scaling law (gamma=0.118 vs. 0.071 for OneTrans, a 1.66x gap), so an 8-layer DeRes matches a 16-layer OneTrans -- about 2x compute saving at equivalent AUC. Ablations confirm that the dual-path design outperforms either single path, Identity beats learnable residuals, and SiLU beats Softmax.
- Abstract(参考訳): トランスフォーマーベースのCTRモデルは、残留接続におけるボトルネックの増大に直面している。Pre-Normの下では、初期のユーザ関心シグナルは層によって希釈される。
最近の注意に基づく残差変種(AttnRes)は、言語モデルにおけるこの部分に対応するが、保護IDのスキップを廃止し、推奨されていない。
2次パスネットワーク(DPN)とHORNN(HORNN)の残差を描画し、各レイヤを2つの並列パス(一階特徴の再利用と勾配フローを保存するアイデンティティ残差パス)をルーティングするDeResと、すべての前のブロックの圧縮された出力に高階リコールするBlock Attention Residualパスを示す。
ベクトルワイドゲートは、隠れ次元ごとに各経路に与えられる重みを決定する。
さらに,複数の過去のブロックを同時に活性化し,無関係なブロックは負の重み付けを受け、CTRの並列多目的パターンによく適合するように,多層注目のSoftmaxをSiLUに置き換えるポイントワイド AttnResを提案する。
大規模な産業データセット(331Mのソーシャルメディアプラットフォームからのインタラクション)、Criteo(45M)、Avazu(40M)では、DeResはOneTrans、TokenMixer-Large、UniMixer、mHC、AttnResなど12のベースラインを上回り、最大で0.32%のAUCを5%以上のFLOPで達成している。
1つの運用ポイントの他に、DeResは計算AUCのスケーリング法則(OneTransでは1.66倍の差であるガンマ=0.118対0.071)が著しく急激に適合しているため、8層のDeResは16層のOneTransと一致し、AUCと同等の計算節約率で約2倍になる。
アブレーションによると、デュアルパス設計はシングルパス、アイデンティティーは学習可能な残差、SiLUはソフトマックスを上回っている。
関連論文リスト
- Closed-Form Spectral Regularization for Multi-Task Model Merging [96.82449201305234]
モデルマージは、個別に調整された複数の専門家をトレーニングデータなしで単一のマルチタスクモデルに結合する。
State-of-the-art merging method formulate merging as a layer-wise interference problem。
本稿では,逐次降下の勾配-流路に一致するソフト指数フィルタを組み合わせた閉形式手法SWUDIを提案する。
論文 参考訳(メタデータ) (2026-06-05T14:00:47Z) - WAV: Multi-Resolution Block Residual Routing for Deep Decoder-Only Transformers [1.2973070941583096]
WAV v1はデコーダのみのトランスフォーマーのための軽量な残差ルーティング手法である。
これは、Block AttnResに対する損失をTinyStoriesで0.4960から0.4738、Text8で0.9363から0.9305に削減する。
論文 参考訳(メタデータ) (2026-06-04T16:15:27Z) - Scaling Parallel Sequence Models to Foundation-Scale Vision Encoders [123.58723804218151]
ビジョンファウンデーションモデルは、自己注意の二次的なコストによってボトルネックとなる。
2次元空間伝搬伝搬に基づくC-GSPNを提案する。
論文 参考訳(メタデータ) (2026-05-30T14:29:43Z) - Latent Recurrent Transformer: Architecture Exploration, Training Strategies, and Scaling Behavior [107.2098567818173]
Latent Recurrent Transformer (LRT) は自己回帰変換器の軽量化である。
LRTは、次のトークンのリカレントメモリとして、前のトークンから高レベルなソース層隠れステートを再利用する。
論文 参考訳(メタデータ) (2026-05-26T10:10:26Z) - Attention Residuals [38.59138244826294]
PreNorm との残余接続は現代の LLM では標準的なものであるが、固定単位重み付きで全ての層出力を蓄積する。
本稿では,アテンション残余(AttnRes)を提案する。
論文 参考訳(メタデータ) (2026-03-16T09:32:21Z) - FMS$^2$: Unified Flow Matching for Segmentation and Synthesis of Thin Structures [1.3111058225843968]
2つのモジュールを持つフローマッチングフレームワークであるFMS$2$を提案する。
SegFlowは標準的なエンコーダ/デコーダのバックボーン上に構築された2.96Mパラメータセグメンテーションモデルである。
SynFlowはマスク付きマスク$rightarrow$イメージジェネレータで、ピクセル対応の合成イメージマスクペアを生成する。
論文 参考訳(メタデータ) (2026-03-14T00:04:25Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - RevBiFPN: The Fully Reversible Bidirectional Feature Pyramid Network [3.54359747576165]
RevSiloは、最初の可逆的マルチスケール機能融合モジュールである。
完全に可逆な双方向特徴ピラミッドネットワークであるRevBiFPNを開発した。
RevBiFPNは、少ないMACと2.4倍のトレーニング時間メモリを使用して、HRNet上のAPを最大2.5%向上させる。
論文 参考訳(メタデータ) (2022-06-28T15:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。