論文の概要: TS-Fault: Benchmarking Time Series Forecasters Against Structural Faults
- arxiv url: http://arxiv.org/abs/2606.18539v1
- Date: Tue, 16 Jun 2026 23:15:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.932601
- Title: TS-Fault: Benchmarking Time Series Forecasters Against Structural Faults
- Title(参考訳): TS-Fault:構造欠陥に対する時系列予測のベンチマーク
- Authors: Yuyang Zhao, Lian Xu, Hao Miao, Chenxi Liu, Hao Xue,
- Abstract要約: 時系列予測(TSF)は、エネルギー、輸送、金融、医療の連続的な決定を支えている。
TSFモデルは、デプロイされた信頼性を予測するという暗黙の仮定の下で、クリーンなホールトアウトデータ上の1つの数でほぼ普遍的にランク付けされる。
TS-Faultは、制御可能な意味的難易度を持つ明示的でパラメータ化された障害シナリオの下で予測モデルを評価するベンチマークである。
- 参考スコア(独自算出の注目度): 22.88447833683736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time series forecasting (TSF) underpins consequential decisions in energy, transportation, finance, and healthcare, yet TSF models are almost universally ranked by a single number (e.g., average error) on clean held-out data, under the implicit assumption that it predicts deployed reliability. However, real faults are not i.i.d noise but structured events with temporal shape, broken cross-variable dependencies, regime change coupled with missingness, and causal propagation across a sensing pipeline. Treating TSF robustness as a data-quality problem, we present TS-Fault, a benchmark that evaluates forecasting models under explicit, parameterized fault scenarios with controllable semantic difficulty. TS-Fault organizes recurring failures into four modes along two orthogonal axes (observation- vs mechanism-level; univariate vs multivariate) and injects each fault into the most prediction-critical window via a unified importance score. This design enables robustness to be tested against the structures models actually rely on, rather than reduced to generic noise sensitivity. We evaluate 21 models across 6 datasets, 4 modes, and 5 difficulty levels under a paired clean/corrupt protocol. The results reveal three findings that contradict common leaderboard intuition: (i) clean-data accuracy anti-correlates with robustness; (ii) clean rankings are preserved under observation-level faults but reshuffled under mechanism-level faults; and (iii) all catastrophic failures occur under mechanism-level faults, with foundation models achieving the highest clean-data accuracy yet exhibiting the greatest fragility. The code is publicly available at https://github.com/Ray-zyy/TS-Fault.
- Abstract(参考訳): 時系列予測(TSF)は、エネルギー、輸送、金融、医療の連続的な決定を支えるが、TSFモデルは、デプロイされた信頼性を予測するという暗黙の仮定の下で、クリーンな保留データ上の1つの数(例えば平均エラー)でほぼ普遍的にランク付けされる。
しかし、実際の欠点はノイズではなく、時間的形状の構造化イベント、異種依存関係の破れ、構造変化と欠如、センサーパイプラインを横断する因果伝播である。
TSFのロバスト性をデータ品質問題として扱うことで、TS-Faultは、明示的でパラメータ化された障害シナリオの下で予測モデルを評価するベンチマークであり、制御可能な意味的難易度を持つ。
TS-Faultは2つの直交軸(観測レベルと機構レベル、単変量と多変量)に沿った4つのモードに障害を編成し、統一された重要度スコアによって各障害を最も予測クリティカルなウィンドウに注入する。
この設計により、一般的なノイズ感度に還元されるのではなく、実際に依存する構造モデルに対して堅牢性をテストすることができる。
6つのデータセット、4つのモード、および5つの困難レベルにまたがる21のモデルを評価する。
その結果、一般的なリーダーボードの直観と矛盾する3つの発見が明らかになった。
一 清潔なデータの正確さは、堅牢性に反する
二 清潔な格付けは、観測水準の断層の下で保存するが、機構水準の断層の下で再シャッフルする。
3) 全ての破滅的故障は機構レベルの欠陥の下で発生し, 基礎モデルは最もクリーンなデータの正確さを達成し, 最大の脆弱さを示す。
コードはhttps://github.com/Ray-zyy/TS-Fault.comで公開されている。
関連論文リスト
- Fortress: A Case Study in Stabilizing Search Recommendations via Temporal Data Augmentation and Feature Pruning [2.6494136490021387]
Fortressは、時間の経過とともに一貫性のない予測スコアに寄与する特徴を特定し、誇張する。
Fortressを,大規模なアプリマーケットプレースにおけるクエリ・ツー・アプリ関連モデルで検証する。
論文 参考訳(メタデータ) (2026-05-14T18:13:05Z) - Benchmarking Sensor-Fault Robustness in Forecasting [34.25988781693566]
我々は,予測アーキテクチャとロバスト性改善手法を評価するために,共有CPS地上センサフォアストレステストプロトコルであるSensorFault-Benchを紹介する。
最悪のシナリオ劣化、クリーン平均二乗誤差(MSE)、最悪のシナリオ故障時間MSEを報告し、絶対誤差から相対ロバスト性を分離する。
SensorFault-Benchは、オープンソースコード、ドキュメント化されたデータアクセス、再生および拡張ガイドを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:41:14Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Noisy Analysis of Quantum SMOTE on Condition Monitoring and Fault Classification in Industrial and Energy Systems [0.5505634045241289]
不均衡機械学習モデルは、産業状況の監視と故障分類パイプラインにおける根本的な問題である。
この研究は、クラス不均衡緩和の下での古典的分類器の詳細なベンチマークと調査を示す。
その結果,QSMOTEは分布スキューを一貫して補正し,非線形分類器の性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2026-01-16T16:44:38Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。
テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。
我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文 参考訳(メタデータ) (2025-07-11T14:02:54Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。