論文の概要: Test-Time Training with Next-Token Prediction
- arxiv url: http://arxiv.org/abs/2606.21803v1
- Date: Fri, 19 Jun 2026 23:51:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:06:03.0969
- Title: Test-Time Training with Next-Token Prediction
- Title(参考訳): 次世代予測によるテストタイムトレーニング
- Authors: Xuan Ouyang, Zefan Cai, Junjie Hu,
- Abstract要約: 次世代の予測は、言語モデルを訓練する自己教師型信号である。
この信号が事前訓練された言語モデルにおいてテスト時間トレーニング(TTT)のインナーループ目標を定義できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 13.051008854390586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Next-token prediction is the self-supervised signal that trains language models, and every observed prompt token provides the same signal at test time. We study whether this signal can define the inner-loop objective for test-time training (TTT) in pretrained long-context language models. Many TTT architectures require models to be trained with test-time adaptation in mind, limiting their direct applicability to released LLM checkpoints. While recent in-place TTT methods make fast-weight adaptation possible for pretrained LLMs without redesigning the backbone, they leave a central question unresolved: what should each test-time write store? Existing recipes train the fast weight to match a learned local value proxy but they are not directly tied to the self-supervised next-token prediction signal. We introduce Test-Time Training with Next-Token Prediction (TTT-NTP), a drop-in fast-weight adaptation method for pretrained LLMs that instead supervises updates using the model's own next contextual hidden state. This makes each local write follow the same causal computation that supports next-token prediction: the value target is a pointwise linear projection of a single next-position contextual state. On RULER Full-13 (averaged over 4k, 8k, 16k, and 32k context lengths), TTT-NTP is the only method that consistently improves the released backbone across four models spanning three families and a 0.6--8B size range: Llama-3.1-8B (+3.9), Mistral-7B-v0.3 (+3.0), and the Qwen3 series (Qwen3-4B +4.1, Qwen3-0.6B +2.9). On the real-world LongBench-v2 long-document QA benchmark, TTT-NTP improves over the base model on both Llama-3.1-8B (+5.6) and Mistral-7B-v0.3 (+3.7), while preserving commonsense and knowledge performance.
- Abstract(参考訳): 次に注意すべき予測は、言語モデルを訓練する自己教師型信号であり、観察されたプロンプトトークンはすべて、テスト時に同じ信号を提供する。
この信号が事前訓練された長文言語モデルにおいてテスト時間トレーニング(TTT)のインナーループ目的を定義できるかどうかを検討する。
TTTアーキテクチャの多くは、テスト時間適応を念頭に置いてモデルを訓練する必要がある。
最近のin-place TTTメソッドは、バックボーンを再設計することなく、事前訓練されたLLMに高速な適応を可能にするが、中心的な疑問は未解決のままである。
既存のレシピは、学習したローカル値プロキシにマッチするように、高速なウェイトをトレーニングするが、これらは、自己監督された次トーケン予測信号に直接結び付けられていない。
本研究では,次世代予測を用いたテストタイムトレーニング(TTT-NTP)について紹介する。これは,事前学習したLLMに対して,次のコンテキスト隠蔽状態を用いて更新を監督する高速適応手法である。
これにより、各ローカル書き込みは、次のToken予測をサポートするのと同じ因果計算に従う。
RULER Full-13(平均4k、8k、16k、32kコンテキスト長)では、TTT-NTPは3つのファミリーにまたがる4つのモデルと0.6--8Bサイズの範囲(Llama-3.1-8B (+3.9)、Mistral-7B-v0.3 (+3.0)、Qwen3シリーズ(Qwen3-4B +4.1、Qwen3-0.6B +2.9)でリリースしたバックボーンを継続的に改善する唯一の方法である。
TTT-NTPはLlama-3.1-8B (+5.6) とMistral-7B-v0.3 (+3.7) の両方のベースモデルを改良し、コモンセンスと知識性能を維持した。
関連論文リスト
- Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing [3.861463840588074]
大規模言語モデル(LLM)は、次世代にのみ訓練されているにもかかわらず、潜在マルチトークン予測(MTP)能力を示す。
本研究では,その埋め込み空間から引き出されたオンザフライマスクトークンを用いてLCMを探索するトレーニングフリーMPP手法を提案する。
マスクトケロジットからトップK候補を抽出して投機的トークンツリーを構築し,高確率継続を維持するために軽量プルーニング戦略を適用した。
論文 参考訳(メタデータ) (2026-03-18T17:14:01Z) - End-to-End Test-Time Training for Long Context [98.3930777591529]
アーキテクチャ設計よりも継続学習における問題として,長文言語モデリングを定式化する。
我々のモデルは、与えられたコンテキストの次から次までの予測を通じてテスト時に学習を続け、読み込んだコンテキストを重みに圧縮します。
全体として、テストタイムトレーニング(TTT)の一形態であるE2E(End-to-End)は、テスト時(次世代の予測)とトレーニング時(メタラーニング)の両方である。
論文 参考訳(メタデータ) (2025-12-29T18:30:14Z) - Ultra-Light Test-Time Adaptation for Vision--Language Models [0.6816905600359814]
CLIPのような視覚言語モデル(VLM)は、画像埋め込みとテキスト由来のクラスプロトタイプを比較することで、強力なゼロショット認識を実現する。
ドメインシフトでは、特徴の漂流、クラスプライアミスマッチ、深刻な誤診に悩まされる。
バックボーンを凍結し,ロジットレベルのパラメータのみを適応させる,完全トレーニングフリーでバックプロップフリーなフレームワークであるUltra-Light Test-Time Adaptation (UL-TTA)を提案する。
論文 参考訳(メタデータ) (2025-11-12T08:19:57Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Fast Quiet-STaR: Thinking Without Thought Tokens [51.79231070632772]
Fast Quiet STaRは、より効率的な推論フレームワークであり、計算コストを削減しながらトークンレベルの推論の利点を保存する。
本手法では,段階的に思考トークン数を減少させるカリキュラムベースの学習戦略を導入する。
Mistral 7BとQwen2.5 7Bによる4つのベンチマークデータセットの実験では、Fast Quiet-STaRが平均精度でQuiet-STaRを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-23T11:14:12Z) - Improving Representational Continuity via Continued Pretraining [76.29171039601948]
トランスファーラーニングコミュニティ(LP-FT)は、ナイーブトレーニングやその他の継続的な学習方法よりも優れている。
LP-FTは、リアルタイム衛星リモートセンシングデータセット(FMoW)における忘れを減らす。
LP-FTの変種は、NLP連続学習ベンチマークで最先端の精度を得る。
論文 参考訳(メタデータ) (2023-02-26T10:39:38Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。