論文の概要: Time Series as Language: A Universal Tokenizer for General-Purpose Time Series Foundation Models
- arxiv url: http://arxiv.org/abs/2606.09861v1
- Date: Sun, 31 May 2026 16:04:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.962396
- Title: Time Series as Language: A Universal Tokenizer for General-Purpose Time Series Foundation Models
- Title(参考訳): 言語としての時系列: 汎用時系列基礎モデルのためのユニバーサルトケナイザ
- Authors: Yunhao Zhang, Ruiying Qi, Jiale Zheng, Jianfeng Zhang, Lujia Pan, Junchi Yan,
- Abstract要約: 連続時間列(TS)を離散トークンに変換するユニバーサルトークンライザUniTokと、これらのトークン上でNTPを介して事前訓練された基礎モデルUniTok-FMを紹介する。
UniTok-FMは、ゼロショットとプロンプトブースト予測をサポートし、トレーニング不要なインコンテキスト推論による少数ショットの生成と分類をサポートする汎用基盤モデルである。
- 参考スコア(独自算出の注目度): 58.73838451441261
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Next-Token Prediction (NTP) has unified LLM pretraining, its adaptation to unbounded, continuous time series (TS) remains open. To bridge the gap, we introduce UniTok, a universal tokenizer that transforms TS into discrete tokens, and UniTok-FM, a foundation model pretrained via NTP on these tokens. UniTok-FM is a general-purpose foundation model that supports zero-shot and prompt-boosted forecasting, as well as few-shot generation and classification via training-free in-context inference--a capability not achieved by prior works. Technically, UniTok is a vector-quantized autoencoder incorporating prefix normalization for scale stabilization, a progressive-resolution causal architecture for encoding and decoding, and a structure-preserving reconstruction loss for training. UniTok-FM adopts an off-the-shelf LLM architecture without TS-specific modifications. Instead of pretraining on isolated TS, it performs NTP on context windows formed by multiple series with similar patterns, aiming to capture their shared dynamics. Experiments on forecasting, generation, and classification show that a single unified UniTok-FM consistently outperforms statistical and supervised baselines, achieves competitive performance with task-specific foundation models, and uniquely enables training-free in-context inference across tasks.
- Abstract(参考訳): Next-Token Prediction (NTP) は LLM の事前訓練を統一しているが、非有界連続時系列 (TS) への適応は未定である。
このギャップを埋めるために、TSを離散トークンに変換するユニバーサルトークンライザUniTokと、これらのトークン上でNTPを介して事前訓練された基盤モデルUniTok-FMを導入する。
UniTok-FMは、ゼロショットとプロンプトブースト予測をサポートし、トレーニング不要なインコンテキスト推論による少数ショットの生成と分類をサポートする汎用基盤モデルである。
技術的には、UniTokは、スケール安定化のためのプレフィックス正規化、エンコーディングとデコーディングのためのプログレッシブ・レゾリューション・因果アーキテクチャ、トレーニングのための構造保存型再構成損失を組み込んだベクトル量子化オートエンコーダである。
UniTok-FMはTS固有の変更なしに既製のLLMアーキテクチャを採用する。
独立したTSを事前トレーニングする代わりに、同様のパターンを持つ複数のシリーズで形成されたコンテキストウィンドウ上でNTPを実行し、それらの共有ダイナミクスをキャプチャする。
予測、生成、分類実験により、単一統一UniTok-FMは、統計的および教師付きベースラインを一貫して上回り、タスク固有の基礎モデルとの競合性能を達成し、タスク間のトレーニング不要なインコンテキスト推論を可能にする。
関連論文リスト
- TS-ICL: A Flexible Time-Indexed Foundation Model for Time Series via In-Context Learning [0.764671395172401]
現在のアプローチは主に予測に焦点を当てているが、現実の時系列はしばしば不規則で部分的に観察される。
本稿では,予測と計算を統一する新しい確率的インコンテキスト学習エンコーダであるTS-ICLを紹介する。
論文 参考訳(メタデータ) (2026-06-04T08:52:21Z) - Reasoning-Aware Training for Time Series Forecasting [44.62309170542093]
Time Series Foundation Models (TSFMs) は数値予測では優れているが、定性的推論を欠いたブラックボックスとして運用されている。
テキストトークンライザは連続した数値を断片化し、数学的関係を劣化させ、配列の長さを爆発させる。
STRIDE (Strategic Time-Series Reasoning Injected by Distilled Embeddings) について紹介する。
STRIDEは離散トークンの代わりに、トレースの推論を軽量のLCMに蒸留し、ターゲットの数値エンコーダに先立って平均プールされた隠された状態をクロスモーダルとして動的に投影する。
論文 参考訳(メタデータ) (2026-05-09T02:41:47Z) - Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models [102.20309135516186]
クロスエントロピー(CE)トレーニングは、言語モデルの密集したスケーラブルな監視を提供する。
言語モデル微調整のための特徴マッチング手法を提案する。
この目的を効率的に最適化するために,エネルギーベースファインチューニングを提案する。
論文 参考訳(メタデータ) (2026-03-12T17:57:50Z) - UniDiff: A Unified Diffusion Framework for Multimodal Time Series Forecasting [90.47915032778366]
マルチモーダル時系列予測のための統合拡散フレームワークUniDiffを提案する。
コアには統一的で並列な融合モジュールがあり、単一のクロスアテンション機構がタイムスタンプからの構造化情報とテキストからのセマンティックコンテキストを統合する。
8つの領域にわたる実世界のベンチマークデータセットの実験は、提案したUniDiffモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-08T05:36:14Z) - UniCast: A Unified Multimodal Prompting Framework for Time Series Forecasting [9.836278124939453]
時系列予測は、ファイナンス、ヘルスケア、環境モニタリングといった分野における基本的なタスクである。
既存のモデルは、視覚やテキストなどのリッチなマルチモーダルコンテキストを無視し、実世界のシナリオで時系列データを伴って運用される。
本稿では、TSFMを拡張して時系列、視覚、テキストのモダリティを併用して予測性能を向上する、パラメータ効率の高い新しいマルチモーダルフレームワークUniCastを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:33:27Z) - UniTS: A Unified Multi-Task Time Series Model [31.675845788410246]
UniTSは、予測タスクと生成タスクを単一のフレームワークに統合した、統合されたマルチタスク時系列モデルである。
UniTSは、人間の活動センサー、ヘルスケア、エンジニアリング、ファイナンスにまたがる38のデータセットでテストされている。
論文 参考訳(メタデータ) (2024-02-29T21:25:58Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Structural Self-Supervised Objectives for Transformers [3.018656336329545]
この論文は、教師なし生データを用いて自然言語モデルの事前学習を改善することに焦点を当てている。
第一部では,BERT の Masked Language Modeling (MLM) に対する3つの事前学習目標について紹介する。
第2部では、下流アプリケーションと構造的に整合する自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2023-09-15T09:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。