論文の概要: Inside the LLM Word Factory
- arxiv url: http://arxiv.org/abs/2606.08562v1
- Date: Sun, 07 Jun 2026 10:36:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.263076
- Title: Inside the LLM Word Factory
- Title(参考訳): LLMワードファクトリーの内部
- Authors: Benzi Busigin, Yuval Pinter,
- Abstract要約: モデルがサブワードを単語レベルの表現に分解するプロセスであるデトケン化について研究する。
レイヤ1で2段階のプロセスを一般化するために、Llama2-7Bを使用します。
また,初期層活性化のみに基づく脱トークン化プロセスの成功を判定するためのプローブも提供する。
- 参考スコア(独自算出の注目度): 8.254230288283258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models process input provided as subword fragments, but natural language semantics usually rely on word-level concepts. Detokenization is the process where models reconcile these two facts, aggregating subwords into word-level representations through their computation. Prior work has found that this takes place mostly in early-to-middle layers, but so far the exact mechanics of the process have not been pinned down. We venture deep into detokenization using activation patching in controlled paired experiments that isolate the contribution of different model components, localizing English detokenization in Llama2-7B to a two-stage process at Layer 1. Attention transmits a token-specific signal from nonfinal subwords, using sequential relays if necessary, while the MLP composes it with the local embedding. This two-stage structure generalizes to twelve models from eight families, but the depth over which it takes place depends on the flavor of positional encoding: RoPE-based models detokenize over 1 to 5 layers, while learned-absolute models take 5 to 10. Finally, we provide a probe for determining the success of the detokenization process based on early-layer activations alone, performing at 0.94-0.97 AUROC depending on the amount of context.
- Abstract(参考訳): トランスフォーマー言語モデルはサブワードフラグメントとして提供される入力を処理するが、自然言語のセマンティクスは通常単語レベルの概念に依存している。
デトケン化(Detokenization)は、モデルがこれらの2つの事実を調整し、サブワードをその計算によって単語レベルの表現に集約するプロセスである。
以前の研究によると、これは主に早期から中級層で行われるが、今のところプロセスの正確な仕組みは特定されていない。
異なるモデル成分の寄与を分離し,Llama2-7Bにおける英語のデトケン化をレイヤ1の2段階プロセスに局在させる制御されたペア実験において,アクティベーションパッチを用いたデトケン化を深く推し進める。
アテンションは、必要であればシーケンシャルなリレーを使用して、非ファイナルなサブワードからトークン固有の信号を送信し、MLPはそれをローカルな埋め込みで構成する。
この2段階構造は8つのファミリーから12のモデルに一般化されるが、その奥行きは位置エンコーディングのフレーバーに依存している。
最後に,初期層アクティベーションのみに基づくデトケン化プロセスの成功度を,文脈に応じて0.94-0.97 AUROCで判定する。
関連論文リスト
- Punctuation and Predicates in Language Models [0.5937476291232802]
我々は,GPT-2,DeepSeek,Gemmaの各層における句読点の必要性と有効性を評価する。
異なる推論規則がLLMによって異なる処理を行うかを検討する。
本研究は, LLMにおける句読解と推論の機構について, 新たな知見を提供するものである。
論文 参考訳(メタデータ) (2025-08-11T09:53:30Z) - LayerCake: Token-Aware Contrastive Decoding within Large Language Model Layers [53.43862310647276]
大規模言語モデル(LLM)は、自然言語の理解と生成に優れるが、事実の誤りに弱いままである。
本稿では,トークン型と最も影響力のあるトランスフォーマー層を整合させて実データ生成を改善する,トークン認識型コントラストデコーディング手法を提案する。
提案手法は追加のトレーニングやモデル修正を必要とせず,複数のLSMおよび各種ベンチマークの事実性を常に改善することを示す実験である。
論文 参考訳(メタデータ) (2025-07-06T14:35:43Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Hierarchical Autoregressive Transformers: Combining Byte- and Word-Level Processing for Robust, Adaptable Language Models [3.382910438968506]
トークン化は自然言語処理の基本的なステップであり、テキストを計算モデルが処理できる単位に分割する。
文字レベルと単語レベルの処理を組み合わせた自己回帰型言語モデリングのための階層的アーキテクチャについて検討する。
我々は、70億のパラメータをスケールして、階層変換器がサブワードトケナイザベースのモデルの下流タスク性能と一致することを実証する。
論文 参考訳(メタデータ) (2025-01-17T17:51:53Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。