論文の概要: Token Factory: Efficiently Integrating Diverse Signals into Large Recommendation Models
- arxiv url: http://arxiv.org/abs/2606.19635v2
- Date: Sat, 20 Jun 2026 05:30:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:14.845843
- Title: Token Factory: Efficiently Integrating Diverse Signals into Large Recommendation Models
- Title(参考訳): トークンファクトリー:大規模勧告モデルへの多角的信号の効率的な統合
- Authors: Xilun Chen, Shao-Chuan Wang, Baykal Cakici, Lukasz Heldt, Lichan Hong, Raghu Keshavan, Aniruddh Nath, Li Wei, Xinyang Yi,
- Abstract要約: トークンファクトリー(とけんファクトリー)とは、伝統的な信号をソフトトークンに変換するためのフレームワークである。
このアプローチは、不均一な入力特徴の効率的な統合と圧縮を可能にする。
本研究は,生産規模の推薦環境における有効性を検証する実験結果である。
- 参考スコア(独自算出の注目度): 8.006957907389163
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Recommendation Models (LRMs) have demonstrated promising capabilities in industry-scale recommendation tasks. However, holistically integrating traditional signals into these transformer-based architectures effectively and efficiently remains a major challenge. Conventional approaches that "textualize" these signals directly or create discrete item representations often lead to excessively long prompts, substantial memory footprints, and high computational overhead. To overcome these limitations, we propose "Token Factory", a framework designed to transform traditional signals into "soft tokens" that can be directly processed by LRMs. This approach enables efficient integration and compression of heterogeneous input features, preventing prompt length explosion while enhancing model performance. We detail the architecture of Token Factory and present experimental results validating its effectiveness in a production-scale recommendation environment.
- Abstract(参考訳): 大規模レコメンデーションモデル(LRM)は,産業規模のレコメンデーションタスクにおいて有望な能力を示した。
しかし、従来の信号をこれらのトランスフォーマーベースのアーキテクチャに効果的かつ効率的に統合することは大きな課題である。
これらの信号を"テキスト化"したり、離散的なアイテム表現を作成したりする従来のアプローチは、しばしば過度に長いプロンプト、かなりのメモリフットプリント、高い計算オーバーヘッドをもたらす。
これらの制約を克服するために,従来の信号を直接処理可能な「ソフトトークン」に変換するフレームワーク「Token Factory」を提案する。
このアプローチは、不均一な入力特徴の効率的な統合と圧縮を可能にし、モデル性能を高めながら、即時長の爆発を防止する。
本稿では,Token Factoryのアーキテクチャを詳述するとともに,実運用規模のレコメンデーション環境での有効性を検証する実験結果について述べる。
関連論文リスト
- UniCompress: Token Compression for Unified Vision-Language Understanding and Generation [62.943173382496276]
統一モデルは、イメージを個別のトークンにエンコードし、テキストと共にそれらを処理することによって、理解と生成の両方をサポートすることを目的としている。
本稿では,画像理解と生成の両タスクのパフォーマンスを保ちながら,視覚的トークン数を大幅に削減する統一されたトークン圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-03-11T21:27:15Z) - Query as Anchor: Scenario-Adaptive User Representation via Large Language Model [28.30329175937291]
静的エンコーディングから動的クエリ認識合成へユーザモデリングをシフトするフレームワークであるQuery-as-Anchorを提案する。
まず,産業規模の事前学習データセットであるUserUを構築し,行動系列とユーザ理解のセマンティクスを整合させる。
クラスタベースのSoft Prompt Tuningを導入し、識別潜在構造を強制する。
デプロイメントでは、シーケンスターミニでのクエリのアンカーにより、無視可能なインクリメンタルレイテンシでKVキャッシュを加速する推論が可能になる。
論文 参考訳(メタデータ) (2026-02-16T06:09:31Z) - MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders [11.566232697512879]
MixFormerは、レコメンデーションシステム用に設計されたTransformerスタイルの統一アーキテクチャである。
単一のバックボーン内でのシーケンシャルな振る舞いと特徴的相互作用を共同でモデル化する。
大規模産業データセットの実験は、MixFormerが常に優れた精度と効率を示すことを示した。
論文 参考訳(メタデータ) (2026-02-15T11:53:30Z) - GEMs: Breaking the Long-Sequence Barrier in Generative Recommendation with a Multi-Stream Decoder [54.64137490632567]
本稿では,長期的履歴からユーザのシーケンスをキャプチャする新しい統一フレームワークを提案する。
GEM(Generative Multi-streamer)は、ユーザのシーケンスを3つのストリームに分割する。
大規模産業データセットに対する大規模な実験により、GEMは推奨精度において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-14T06:42:56Z) - Heterogeneous User Modeling for LLM-based Recommendation [70.52873882470328]
オープンドメインレコメンデーションを進める上で重要な課題は、ユーザの不均一な振る舞いからユーザの好みを効果的にモデル化することだ。
IDベースやセマンティックベースモデリングなど、既存のアプローチでは、一般化の貧弱さに悩まされている。
圧縮エンハンサーとロバストネスエンハンサーを組み込んだヘテロジニアス・ユーザ・モデリング(HUM)手法を提案する。
論文 参考訳(メタデータ) (2025-07-07T03:08:28Z) - Enhancing Latent Computation in Transformers with Latent Tokens [48.371764897314]
補助トークンを用いた大規模言語モデルの拡張が,モデル性能向上のための有望な戦略として浮上している。
我々は遅延トークンと呼ばれる軽量な手法を導入し、これらは自然言語では解釈不能なダミートークンである。
提案した潜在トークンは、トレーニング済みのTransformerとシームレスに統合され、パラメータ効率のよい方法で訓練され、推論時に柔軟に適用できる。
論文 参考訳(メタデータ) (2025-05-19T02:35:53Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Adaptive Fourier Neural Operators: Efficient Token Mixers for
Transformers [55.90468016961356]
本稿では,Fourierドメインのミキシングを学習する効率的なトークンミキサーを提案する。
AFNOは、演算子学習の原則的基礎に基づいている。
65kのシーケンスサイズを処理でき、他の効率的な自己認識機構より優れている。
論文 参考訳(メタデータ) (2021-11-24T05:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。