論文の概要: Agentic Time Machine as an Infrastructure for Future-Event Forecasting
- arxiv url: http://arxiv.org/abs/2606.21013v1
- Date: Fri, 19 Jun 2026 00:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 09:01:51.553332
- Title: Agentic Time Machine as an Infrastructure for Future-Event Forecasting
- Title(参考訳): 未来のイベント予測のための基盤としてのエージェントタイムマシン
- Authors: Jingyi Chai, Bingyang Zheng, Xiangrui Liu, Hao Lu, Zihang Zhou, Tianchen Wang, Kemeng Zhang, Siheng Chen,
- Abstract要約: Agentic Time Machine (TM) は、ポストカット後のコンテンツをフィルタリングすることで、選択した過去のWeb状態を再構築する。
TMは各質問を多様な分析角度に組み合わせ、証拠を並列に集め、結果を一つの予測にまとめる。
TMで評価したFutureX-PastとPolymarketについて,本フレームワークは,強力なクローズドブック,ツール拡張,自己整合性ベースラインの中で最高のスコアを達成している。
- 参考スコア(独自算出の注目度): 42.3570042854712
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting future events is a critical challenge for large language model (LLM) agents, spanning domains from elections and monetary policy to financial markets. However, evaluating progress on this task presents a fundamental trade-off between efficiency and environment fidelity. While live evaluation benchmarks suffer from an inherently slow feedback loop, existing retrospective replays typically restrict agents to static, pre-frozen databases that sacrifice the environmental realism of actual deployments. To tackle this issue, we introduce Agentic Time Machine (TM), an infrastructure that approximately reconstructs the web state at any chosen past time by filtering post-cutoff content. Leveraging this evaluation infrastructure, we further propose a planner-solver-aggregator multi-agent framework that breaks each question into diverse analytical angles, gathers evidence in parallel, and combines the results into a single forecast. Experiments show that offline scores under TM correlate strongly with live FutureX scores, validating that TM offers a fast and reliable sandbox for forecasting-agent evaluation. On FutureX-Past and Polymarket evaluated under TM, our framework achieves the highest score among strong closed-book, tool-augmented, and self-consistency baselines. On the official FutureX live leaderboard, our system achieves the best average rank over four consecutive weeks, including 1st place in May Week 1. As of June 17, it also ranks 1st on FutureX's official eight-week overall leaderboard.
- Abstract(参考訳): 将来の出来事を予測することは、選挙や金融政策から金融市場に至るまで、大言語モデル(LLM)エージェントにとって重要な課題である。
しかし, この課題の進捗を評価することは, 効率性と環境忠実度の間に根本的なトレードオフをもたらす。
ライブ評価ベンチマークは本質的に遅いフィードバックループに悩まされているが、既存のリフレクションリプレイはエージェントを静的で凍結したデータベースに制限し、実際のデプロイメントの環境リアリズムを犠牲にする。
この問題に対処するため,我々は,ポストカット後のコンテンツをフィルタリングすることで,選択した過去のWeb状態を概ね再構築するインフラであるAgentic Time Machine (TM)を紹介した。
この評価インフラを活用することで、各質問を多様な分析角度に分割し、証拠を並列に収集し、結果を単一の予測にまとめるプランナー-解集合体多エージェントフレームワークをさらに提案する。
実験の結果、TMのオフラインスコアはFutureXのライブスコアと強く相関し、TMが予測エージェント評価のための高速で信頼性の高いサンドボックスを提供することを示した。
TMで評価したFutureX-PastとPolymarketについて,本フレームワークは,強力なクローズドブック,ツール拡張,自己整合性ベースラインの中で最高のスコアを達成している。
公式のFutureXライブリーダーボードでは,5月1日の第1位を含む4週間にわたって,私たちのシステムが最高の平均ランクを達成している。
6月17日時点では、FutureXの公式8週間全体リーダーボードの1位にランクインしている。
関連論文リスト
- The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development? [80.24951682268332]
本稿では,自律エージェント開発のためのフロンティアモデルのキャパシティをテストするための評価フレームワークであるMeta-Agent Challenge(MAC)を紹介する。
評価の整合性を確保するため、このフレームワークは報奨ハッキングに対する多層防御によって確保される。
メタエージェントは人間工学的な基本方針とほとんど一致せず、その一部はプロプライエタリなフロンティアモデルに支配されている。
論文 参考訳(メタデータ) (2026-06-03T04:58:17Z) - TimeSage-MT: A Multi-Turn Benchmark for Evaluating Agentic Time Series Reasoning [44.68126840122709]
時系列データは、多くの現実世界のドメインに対して重要な決定を通知する。
大規模言語モデル (LLM) エージェントがマルチターン会話を通して信頼できる時系列解析を行うことができるかどうかは不明である。
TimeSage-MTは、240のタスクと2,680の対話が8つの現実世界のドメインにまたがるエージェント時系列推論のベンチマークである。
論文 参考訳(メタデータ) (2026-05-31T23:34:35Z) - Impermanent: A Live Benchmark for Temporal Generalization in Time Series Forecasting [8.050703449557028]
Impermanentは、オープンワールドの時間的変化の下で予測モデルを評価するライブベンチマークである。
私たちは、スター数によるトップ400リポジトリにフォーカスし、イシューのオープン、プルリクエストのオープン、プッシュイベント、新しいスターゲイザーから時系列を構築します。
静的な精度から持続的な性能へ評価をシフトさせることにより、Imbermanentは、時系列予測における基礎レベルの一般化が有意義に主張できるかどうかを評価するための具体的な一歩を踏み出す。
論文 参考訳(メタデータ) (2026-03-09T17:59:00Z) - VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。
実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文 参考訳(メタデータ) (2025-12-31T16:31:59Z) - FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - HoTPP Benchmark: Are We Good at the Long Horizon Events Forecasting? [1.3654846342364308]
長軸予測を厳格に評価するために設計された最初のベンチマークである HoTPP を紹介する。
我々は,広く使用されている評価指標の欠点を特定し,理論的に基礎付けられたT-mAP尺度を提案し,人気モデルの効率的な実装を提供する。
我々は,自己回帰と強度に基づく損失が予測品質に与える影響を分析し,今後の研究に向けた有望な方向性を概説する。
論文 参考訳(メタデータ) (2024-06-20T14:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。