論文の概要: Tensorizing Engram: Sharing Latents Across N-Gram Embeddings is Beneficial in LLMs
- arxiv url: http://arxiv.org/abs/2606.08347v1
- Date: Sat, 06 Jun 2026 21:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.05256
- Title: Tensorizing Engram: Sharing Latents Across N-Gram Embeddings is Beneficial in LLMs
- Title(参考訳): テンソル化エングラム:N-Gram埋め込みにおける潜伏剤の共有はLLMにおいて有用である
- Authors: Wuyang Zhou, Yuxuan Gu, Giorgos Iacovides, Yuning Qiu, Qibin Zhao, Danilo Mandic,
- Abstract要約: 過度にトークン化されたトランスフォーマーとEngramは、マルチトークンメモリを明示的に組み込むことで、この制限に対処しようとする。
本稿では,共有因子によるn-gramの埋め込みを表すコンパクトメモリモジュールであるPolyadicized Engram (TN-gram)を提案する。
総合的な実験により、TN-gram は Engram スタイルの n-gram 加群と一致し、さらに優れることを示した。
- 参考スコア(独自算出の注目度): 29.319221741796685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models represent text using discrete token-level embeddings, which forces recurring multi-token patterns to be learned implicitly across Transformer layers. Both Over-tokenized Transformers and Engram attempt to address this limitation by explicitly incorporating multi-token (n-gram) memories. However, they rely on separate hash tables for each n-gram order, which introduces hash collisions and prevents nested n-grams from sharing the underlying latent structures. To address these issues, we propose Tensorized Engram (TN-gram), a compact memory module that represents tensorized n-gram embeddings through shared factors in the Canonical Polyadic (CP) form. TN-gram learns shared token-position factors together with order-absorption vectors to encode the embeddings of different n-gram order. Comprehensive experiments demonstrate that TN-gram matches or even outperforms Engram-style n-gram modules while requiring much fewer parameters.
- Abstract(参考訳): 現代の言語モデルは、トークンレベルの個別埋め込みを使用してテキストを表現する。
Over-tokenized Transformers と Engram はどちらも、マルチトークン(n-gram)メモリを明示的に組み込むことによって、この制限に対処しようとする。
しかし、それらはn-gramの順序ごとに別々のハッシュテーブルに依存しており、これはハッシュ衝突を引き起こし、ネストしたn-gramが根底にある潜伏構造を共有するのを防ぐ。
これらの問題に対処するため、我々はCanonical Polyadic (CP)形式の共有因子によるテンソル化n-gram埋め込みを表すコンパクトメモリモジュールであるTensorized Engram (TN-gram)を提案する。
TN-gramは、異なるn-gramオーダーの埋め込みを符号化するために、秩序吸収ベクトルとともに共有トークン配置因子を学習する。
総合的な実験により、TN-gram はより少ないパラメータで Engram スタイルの n-gram モジュールと一致し、さらに優れることを示した。
関連論文リスト
- Lngram: N-gram Conditional Memory in Latent Space [7.279732869251628]
隠れ状態から直接離散シンボルを学習する潜在空間条件記憶モジュールを提案する。
Lngramは、長文言語モデリングにおいてTransformerとEngramのベースラインを上回ります。
LogitLensとCKAによる分析では、Lngramによって予測関連情報が早く現れることが示唆されている。
論文 参考訳(メタデータ) (2026-05-24T04:59:11Z) - Does Engram Do Memory Retrieval in Autoregressive Image Generation? [50.31813662801864]
本研究では,Engramモジュールを2次元空間的$n$-gramハッシュ,ゲート融合,KV-cache互換インクリメンタル推論で視覚に適応させる。
ゲート・クランプ・スイープは、エングラムの経路を完全に無効にすることは破滅的であることを示している。
ドナープローブ実験により、一致した、逆数的な、あるいはランダムな同一クラスの例にハッシュ入力を交換すると、統計的に区別不能な次トーケン分布が生じることが示された。
論文 参考訳(メタデータ) (2026-05-13T08:40:46Z) - Enhanced Graph Transformer with Serialized Graph Tokens [28.343061516069756]
トランスフォーマーはグラフ学習、特にノードレベルのタスクで成功している。
本稿では,グローバル信号をより効果的にカプセル化するための,新しいシリアライズトークンパラダイムを提案する。
提案手法は,いくつかのグラフレベルのベンチマークにおいて,最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2026-02-09T07:23:22Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - State space models can express n-gram languages [51.823427608117626]
我々は、n-gramルールから生成された言語に対して、次の単語予測タスクを解くことのできる状態空間言語モデルを構築している。
我々の証明は、SSMがn-gramルールをその能力に関する新たな理論的結果を用いてエンコードする方法を示している。
n-gramルールから生成された小さなデータセットを用いて実験を行い、勾配に基づく最適化によって得られたSSMやRNNにフレームワークをどのように適用できるかを示す。
論文 参考訳(メタデータ) (2023-06-20T10:41:23Z) - Transforming Visual Scene Graphs to Image Captions [69.13204024990672]
我々は、Scene Graphs (TSG) をより説明的なキャプションに変換することを提案する。
TSGでは、シーングラフの埋め込みのためのグラフニューラルネットワーク(GNN)の設計にマルチヘッドアテンション(MHA)を適用している。
TSGでは、各専門家はMHAに基づいてグラフ埋め込みを識別し、異なる種類の単語を生成する。
論文 参考訳(メタデータ) (2023-05-03T15:18:37Z) - NodePiece: Compositional and Parameter-Efficient Representations of
Large Knowledge Graphs [15.289356276538662]
固定サイズのエンティティ語彙を学習するためのアンカーベースのアプローチであるNodePieceを提案する。
NodePieceでは、サブワード/サブエンティティユニットの語彙は、既知の関係型を持つグラフのアンカーノードから構築される。
実験の結果、NodePieceはノード分類、リンク予測、関係予測タスクで競合的に動作していることがわかった。
論文 参考訳(メタデータ) (2021-06-23T03:51:03Z) - ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling
for Natural Language Understanding [44.21363470798758]
ERNIE-Gramは、粗粒度情報の事前学習への統合を強化するために、明示的にn-gramマスキング法である。
我々は、英語と中国語のテキストコーパスでERNIE-Gramを事前訓練し、19の下流タスクで微調整を行う。
実験結果から,ERNIE-GramはXLNetやRoBERTaといった従来の事前学習モデルよりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2020-10-23T03:42:20Z) - Neural Machine Translation without Embeddings [44.129310924201604]
多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
論文 参考訳(メタデータ) (2020-08-21T09:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。