論文の概要: TimeVista: Exploring and Exploiting Vision-Language Models as Judges for Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2606.16173v1
- Date: Mon, 15 Jun 2026 03:39:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.060361
- Title: TimeVista: Exploring and Exploiting Vision-Language Models as Judges for Time Series Forecasting
- Title(参考訳): TimeVista: 時系列予測の判断者としてのビジョンランゲージモデルの探索と展開
- Authors: Zhi Chen, Yuxuan Wang, Jialong Wu, Yong Liu, Haoran Zhang, Xingjian Su, Jianmin Wang, Mingsheng Long,
- Abstract要約: 「LLM-as-a-Judge」パラダイムは、柔軟でヒューマンアライメントな判断を提供することによって、テキスト評価に革命をもたらした。
本稿では,文脈情報に基づくマイクロ・マクロレベルの判断を統合した新しいフレームワークを提案する。
広範囲なメタ評価は、ビジョン・ランゲージ・モデル(VLM)が信頼性の高い判断であることを示している。
- 参考スコア(独自算出の注目度): 51.59529402134439
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality time series forecasting is pivotal for real-world decision-making. However, traditional point-wise metrics often fail to reveal complex temporal patterns and align poorly with human intuitive preferences. While the ''LLM-as-a-Judge'' paradigm has revolutionized text evaluation by providing flexible, human-aligned judgment, its application to time series remains largely unexplored. In this paper, we leverage Vision-Language Models (VLMs) as judges for time series forecasting, harnessing their ability to comprehend time series plots grounded in textual information. Specifically, we propose a novel framework integrating micro- and macro-level judgments informed by contextual information to evaluate time series forecasting. To this end, we introduce TimeVista, a comprehensive VLM-as-a-Judge benchmark comprising 5563 time series samples paired with detailed evaluation rubrics. Extensive meta-evaluations demonstrate that VLMs are highly reliable judges, achieving significantly higher consistency with human preferences than conventional metrics. Building upon our benchmark, we comprehensively assess recent Time Series Foundation Models (TSFMs) under the VLM-as-a-Judge paradigm. Our results demonstrate that VLMs serve as robust and interpretable judges, providing a comprehensive, human-aligned standard for evaluating time series models.
- Abstract(参考訳): 高品質な時系列予測は、現実世界の意思決定において重要である。
しかし、従来のポイントワイドメトリクスは複雑な時間パターンを明らかにしず、人間の直感的な好みとうまく一致しないことが多い。
LLM-as-a-Judge'のパラダイムは、柔軟でヒューマンアライメントな判断を提供することによって、テキスト評価に革命をもたらしたが、時系列への応用はいまだに未解明のままである。
本稿では,テキスト情報に基づく時系列プロットの理解能力を活用し,時系列予測の判断に視覚言語モデル(VLM)を利用する。
具体的には、時系列予測を評価するために、文脈情報から情報を得たマイクロおよびマクロレベルの判断を統合する新しいフレームワークを提案する。
この目的のために,5563個の時系列サンプルと詳細な評価ルーリックを組み合わせた総合的なVLM-as-a-JudgeベンチマークであるTimeVistaを紹介する。
大規模なメタ評価により、VLMは信頼性の高い判断者であり、従来の指標よりも人間の嗜好との整合性が著しく高いことが示される。
VLM-as-a-Judgeパラダイムに基づく最近の時系列基礎モデル(TSFM)を総合的に評価する。
我々の結果は,VLMが堅牢かつ解釈可能な判断器として機能し,時系列モデルを評価するための包括的,人間対応の標準を提供することを示す。
関連論文リスト
- INSIGHTS: Demonstration-Based Summaries of Time Series Predictors [10.537943094162754]
時系列モデルのグローバルな説明を提供するための,モデルに依存しないユーザ中心のアプローチであるINSIGHTSを紹介する。
我々のアプローチは、設計における単純さ、効率、透明性を優先し、ステークホルダーがそのアウトプットを簡単に適用できるようにします。
論文 参考訳(メタデータ) (2026-05-13T08:17:35Z) - It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - A Unified Frequency Domain Decomposition Framework for Interpretable and Robust Time Series Forecasting [81.73338008264115]
時系列予測の現在のアプローチは、時間領域であれ周波数領域であれ、主に線形層やトランスフォーマーに基づいたディープラーニングモデルを使用する。
本稿では,多種多様な時系列を数学的に抽象化する統合周波数領域分解フレームワークFIREを提案する。
火は長期予測ベンチマークで最先端のモデルを一貫して上回る。
論文 参考訳(メタデータ) (2025-10-11T09:59:25Z) - BALM-TSF: Balanced Multimodal Alignment for LLM-Based Time Series Forecasting [5.360725360679271]
BALM-TSFは時系列予測のための軽量フレームワークである。
時系列とテキスト埋め込みのバランスを維持する。
長期および少数ショットの予測において、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-30T22:31:55Z) - Time-Prompt: Integrated Heterogeneous Prompts for Unlocking LLMs in Time Series Forecasting [13.283980715705693]
時系列予測は、変数間の時間的依存関係を将来の状態推論のためにモデル化することを目的としている。
深層学習に基づく手法は目覚ましい進歩を遂げているが, 長期的な予測では, 依然として準最適性能を示している。
本稿では,時系列予測のための大規模言語モデルを活性化するフレームワークであるTime-Promptを提案する。
論文 参考訳(メタデータ) (2025-06-21T08:22:25Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。