論文の概要: Leakage-Aware Benchmarking of LLM Forecasting: Real-Time Nowcasts as the Decision-Time Input for Macro Factor Ranking
- arxiv url: http://arxiv.org/abs/2606.22719v1
- Date: Sun, 21 Jun 2026 23:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 05:08:04.272331
- Title: Leakage-Aware Benchmarking of LLM Forecasting: Real-Time Nowcasts as the Decision-Time Input for Macro Factor Ranking
- Title(参考訳): LLM予測のリーク・アウェア・ベンチマーク:マクロ因子ランク付けのための決定時間入力としてのリアルタイムニュースキャスト
- Authors: Mao Guan, Qian Chen,
- Abstract要約: 検索強化 7B オープンソースの LLM 予測器を用いて, リーク制御されたエクイティファクターのランク付けについて検討した。
パイプラインは、月平均のSpearmanランクICが+0.154で、3つの重複しない12ヶ月のサブウィンドウに対して正の値である。
パイプラインはより高い平均ICを維持し、より強力なロングショート割り当てサニティチェックを保ち、ロングショートポートフォリオの形成を促進する極端なランキングに限界的な利益が集中していることを示唆している。
- 参考スコア(独自算出の注目度): 4.02230249930341
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting benchmarks for retrieval-augmented LLMs routinely confound model capability with information leakage: features labeled with a target's timestamp are often not observable at the system's decision time. We study leakage-controlled equity factor ranking with a retrieval-augmented 7B open-source LLM forecaster. At each month-end from 2023-04 to 2026-03, the forecaster observes only decision-time information: lag-shifted FRED macro variables, recent macro-event summaries, and the Cleveland Fed's archived daily CPI nowcast for unreleased current-month inflation. A macro-analog retrieval module selects historical states, a critic LLM compresses them into one tactical rule, and an actor LLM maps the current state and recent rules into scores for seven U.S. equity style factors. The full pipeline obtains a median monthly Spearman rank IC of +0.154, with positive means across three non-overlapping contiguous 12-month subwindows; the mean IC remains statistically underpowered, with a bootstrap 95% confidence interval that includes zero. Non-LLM baselines under the same decision-time constraint demonstrate that a kNN macro-analog model recovers a comparable median IC, indicating that real-time inflation information and macro-similar retrieval explain much of the median signal. The LLM pipeline retains higher mean IC and a stronger long-short allocation sanity check, suggesting that any marginal benefit is concentrated in the extreme rankings that drive long-short portfolio formation. A descriptive audit of the 36 critic rules and per-month case studies appears in the appendix.
- Abstract(参考訳): 検索拡張LDMの予測ベンチマークは、通常、情報漏洩を伴うモデル機能と矛盾する: ターゲットのタイムスタンプでラベル付けされた機能は、システムの決定時に観測できないことが多い。
検索強化 7B オープンソースの LLM 予測器を用いて, リーク制御されたエクイティファクターのランク付けについて検討した。
2023-04から2026-03までの毎月の終わりには、ラグシフトされたFREDマクロ変数、最近のマクロイベントサマリー、クリーブランド・フェデラルの毎日のCPIが現在公表されていないインフレ率を計上している。
マクロアナログ検索モジュールは歴史的状態を選択し、批評家のLLMはそれらを一つの戦術ルールに圧縮し、アクターのLLMは現在の状態と最近のルールを7つの米国株式スタイル要素のスコアにマッピングする。
全パイプラインは、月平均のSpearmanランクICが+0.154で、3つの重複しない12ヶ月のサブウィンドウで正の値が得られ、平均ICは統計的に過小評価され、ブートストラップ95%の信頼区間は0を含む。
同じ決定時間制約下での非LLMベースラインは、kNNマクロアナログモデルが同等の中央値ICを回復し、リアルタイムインフレーション情報とマクロ類似検索が中央値信号の多くを説明することを示す。
LLMパイプラインは、より高い平均ICを維持し、より強力なロングショート割り当てサニティチェックを保持し、ロングショートポートフォリオ形成を促進する極端なランキングに限界的な利益が集中していることを示唆している。
付録には36の批判規則と月毎のケーススタディが記載されている。
関連論文リスト
- Nexus : An Agentic Framework for Time Series Forecasting [72.73790673303154]
時系列予測は、ニュースやイベントのような構造化されていないコンテキストデータによる推論を必要とする。
予測を特殊なステージに分解するマルチエージェント予測フレームワークであるNexusを紹介します。
本研究では,現在のLLMは,従来よりも強い固有予測能力を有することを示す。
論文 参考訳(メタデータ) (2026-05-14T05:12:13Z) - Rethinking Large Language Models For Irregular Time Series Classification In Critical Care [21.37241228209626]
集中治療室(ICU)からの時系列データは、患者のモニタリングに重要な情報を提供する。
近年,Large Language Models (LLM) を時系列モデリング (TSM) に適用する研究が進んでいる。
本研究では、時系列エンコーダとマルチモーダルアライメント戦略の2つの重要な要素について検討する。
論文 参考訳(メタデータ) (2026-01-23T07:30:02Z) - Look-Ahead-Bench: a Standardized Benchmark of Look-ahead Bias in Point-in-Time LLMs for Finance [0.0]
我々はLook-Ahead-Benchについて紹介する。Look-Ahead-Benchは、LLM(Point-in-Time)大言語モデルにおけるルック-アヘッドバイアスを測定する標準ベンチマークである。
我々は、時間的に異なる市場体制におけるパフォーマンス劣化を分析し、パフォーマンス閾値を確立するために、いくつかの定量的ベースラインを取り入れた。
その結果, ピチンフモデルとは異なり, アルファ崩壊で測定された標準LDMの頭頂部偏差が顕著であった。
論文 参考訳(メタデータ) (2026-01-20T09:23:51Z) - Quantifying Memory Use in Reinforcement Learning with Temporal Range [51.98491034847041]
時間的範囲(Temporal Range)は、時間的影響プロファイルとして、時間的ウィンドウから入力シーケンスへの複数のベクトル出力の1次感度を扱うモデルに依存しない計量である。
また、タスクレベルメモリのプロキシ読み出しとして、タスク上で訓練されたコンパクトなLong Expressive Memory(LEM)ポリシーについて、テンポラルレンジを報告する。
論文 参考訳(メタデータ) (2025-12-05T22:58:09Z) - Mamba Outpaces Reformer in Stock Prediction with Sentiments from Top Ten LLMs [0.0]
本研究では,上位10大言語モデル(LLM)のセマンティック感情スコアを用いて,最小レベルの予測精度を向上させる新しいフレームワークを提案する。
われわれは、2025年4月4日から5月2日までのApple.comのニュース記事と1分間のApple.comの株価の時系列データセットを構築した。
論文 参考訳(メタデータ) (2025-09-14T16:36:24Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - SoK: Membership Inference Attacks on LLMs are Rushing Nowhere (and How to Fix It) [16.673210422615348]
LLMに対するメンバーシップ推論攻撃(MIA)を行うための10以上の新しい手法が提案されている。
固定だがランダム化されたレコードやモデルに依存する従来のMIAとは対照的に、これらの方法は主にトレーニングされ、ポストホックで収集されたデータセットでテストされる。
このランダム化の欠如は、メンバーと非メンバー間の分散シフトの懸念を引き起こす。
論文 参考訳(メタデータ) (2024-06-25T23:12:07Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。