論文の概要: Beyond Item IDs: Scaling Short-Form-Video Recommendation via Semantic-Native Long Sequence Modeling
- arxiv url: http://arxiv.org/abs/2606.07546v1
- Date: Mon, 04 May 2026 00:00:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.700475
- Title: Beyond Item IDs: Scaling Short-Form-Video Recommendation via Semantic-Native Long Sequence Modeling
- Title(参考訳): アイテムIDを超えて:意味的Nativeロングシーケンスモデリングによる短時間ビデオレコメンデーションのスケーリング
- Authors: Ruixiao Sun, Diego Uribe Mora, Zhimeng Jiang, Yuanzhen Lin, Jiarui Wang, Yuening Li, Danfeng Guo, Zhizhong Chen, Chuan He, Liang Liu,
- Abstract要約: 本稿では,10億ユーザ規模の超長期ユーザ行動シーケンスをモデル化するための実運用フレームワークを提案する。
まず、コンテンツネイティブなセマンティックIDを採用することで、表現ボトルネックに対処する。
第2に、シーケンススケーリング障壁を克服するために、Global-Aware Compression Transformerを導入する。
- 参考スコア(独自算出の注目度): 13.58338102892064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Capturing user interests across extensive watch histories is critical for short-form video recommendation, yet scaling sequence length is limited by two bottlenecks: the semantic sparsity of atomic Video IDs and the quadratic computational complexity of Transformers. Traditional orthogonal Video IDs fail to capture content relationships and demand large embedding tables, while the quadratic complexity of self-attention restricts the maximum sequence length under strict industrial latency and resource constraints. In this work, we present a production-deployed framework for modeling ultra-long user behavior sequences at a billion-user scale. We first address the representation bottleneck by adopting content-native Semantic IDs. By utilizing depth-truncated, coarse-grained Semantic IDs, we shrink the embedding table size from corpus cardinality. This compact representation naturally generalizes to cold-start content through shared semantic prefixes. Second, to overcome the sequence scaling barrier, we introduce a Global-Aware Compression Transformer that leverages non-parametric temporal folding and unified global query integration to effectively condense the sequence, alleviating both the memory and computational bottlenecks of standard self-attention. Offline profiling on our computing infrastructure demonstrates an order-of-magnitude reduction in peak memory footprint and a drastic decrease in computational overhead. This efficiency gain enables supporting longer sequence lengths at an affordable cost in production, yielding substantial online gains in satisfied user engagement and satisfied content consumption in large-scale online A/B tests.
- Abstract(参考訳): 広範な監視履歴をまたいだユーザの関心を捉えることは、ショートフォームのビデオレコメンデーションにとって重要であるが、シーケンス長のスケーリングは、アトミックビデオIDのセマンティックスカラー性と、トランスフォーマーの2次計算複雑性という2つのボトルネックによって制限されている。
従来の直交ビデオIDは、コンテンツ関係を捉えず、大きな埋め込みテーブルを必要とするが、自己注意の二次的な複雑さは、厳しい産業遅延とリソース制約の下での最大シーケンス長を制限する。
本研究では,10億ユーザ規模の超長期ユーザ行動系列をモデル化するための実運用フレームワークを提案する。
まず、コンテンツネイティブなセマンティックIDを採用することで、表現ボトルネックに対処する。
密閉された粗粒のセマンティックIDを利用することで、埋め込みテーブルのサイズをコーパス濃度から小さくする。
このコンパクト表現は、共有セマンティックプレフィックスを通じてコールドスタートコンテンツに自然に一般化する。
第2に,非パラメトリックの時間的折り畳みと統合されたグローバルクエリ統合を利用してシーケンスを効果的に凝縮し,標準的な自己意図のメモリと計算のボトルネックを緩和するGlobal-Aware Compression Transformerを導入する。
計算インフラ上のオフラインプロファイリングは、ピークメモリフットプリントのオーダー・オブ・マグニチュードの減少と、計算オーバーヘッドの大幅な減少を示す。
この効率向上により、低コストでより長いシーケンス長をサポートでき、大規模なオンラインA/Bテストにおいて、満足度の高いユーザエンゲージメントと満足度の高いコンテンツ消費で実質的なオンラインゲインが得られる。
関連論文リスト
- Adaptive Tokenisation Via Temporal Redundancy Masking And Latent Inpainting [18.71433885255431]
適応的ビデオトークン化(Adaptive Video tokenisation)は、シーケンスの基盤となる視覚的複雑さに基づいて、トークンの予算を動的に割り当てる。
凍結連続ビデオトークンの潜伏空間は,直接利用可能な時間的冗長性を本質的に符号化していることを示す。
パラメータフリー適応トークン割り当て機構を導入し,時間-L1差分に対する固定しきい値を適用した。
論文 参考訳(メタデータ) (2026-06-04T13:31:12Z) - Seeing Further and Wider: Joint Spatio-Temporal Enlargement for Micro-Video Popularity Prediction [24.227528430107114]
マイクロビデオの人気予測(MVPP)は、オンラインメディア上でのビデオの人気を予測することを目的としている。
MVPPアプローチでは、あるビデオ(時間)の時間的ダイナミクスと、他のビデオ(空間)に対する歴史的関連性の両方を理解することが重要である。
論文 参考訳(メタデータ) (2026-04-22T08:11:06Z) - S2GS: Streaming Semantic Gaussian Splatting for Online Scene Understanding and Reconstruction [57.07346645250984]
Streaming Semantic Gaussian Splatting (S2GS) は厳密に因果的かつ漸進的な3D Gaussianセマンティックフィールドフレームワークである。
将来のフレームを活用せず、歴史的フレームを再処理することなく、シーンの幾何学、外観、インスタンスレベルのセマンティクスを継続的に更新する。
S2GSは、ジョイントリコンストラクションとアンダーホールドのベンチマークにおいて、強いオフラインベースラインをマッチまたは上回る。
論文 参考訳(メタデータ) (2026-03-15T05:48:55Z) - GEMs: Breaking the Long-Sequence Barrier in Generative Recommendation with a Multi-Stream Decoder [54.64137490632567]
本稿では,長期的履歴からユーザのシーケンスをキャプチャする新しい統一フレームワークを提案する。
GEM(Generative Multi-streamer)は、ユーザのシーケンスを3つのストリームに分割する。
大規模産業データセットに対する大規模な実験により、GEMは推奨精度において最先端の手法を大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-14T06:42:56Z) - Mixture of Contexts for Long Video Generation [72.96361488755986]
我々は長文ビデオ生成を内部情報検索タスクとして再放送する。
本稿では,学習可能なスパークアテンション・ルーティング・モジュールであるMixture of Contexts (MoC) を提案する。
データをスケールしてルーティングを徐々に分散させていくと、そのモデルは計算を適切な履歴に割り当て、アイデンティティ、アクション、シーンを数分のコンテンツで保存する。
論文 参考訳(メタデータ) (2025-08-28T17:57:55Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。