論文の概要: ForecastBench-Sim: A Simulated-World Forecasting Benchmark
- arxiv url: http://arxiv.org/abs/2606.18686v1
- Date: Wed, 17 Jun 2026 04:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.009003
- Title: ForecastBench-Sim: A Simulated-World Forecasting Benchmark
- Title(参考訳): ForecastBench-Sim: シミュレーションされた世界予測ベンチマーク
- Authors: Jaeho Lee, Nick Merrill, Ezra Karger,
- Abstract要約: ForecastBench-SimはFreecivのゲームロールアウト上に構築されたシミュレーションワールド予測ベンチマークである。
予測者は固定された世界報告を受け取り、隠された将来の国家に関する質問に答える。
世界はシミュレートされているので、同じ設定で連続的または二分予測の質問を生成することができる。
- 参考スコア(独自算出の注目度): 11.4807141145402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting benchmarks for general-purpose AI systems usually inherit the constraints of the real world: outcomes resolve slowly, tail events are rare, and counterfactual questions are difficult to score. We introduce ForecastBench-Sim, a simulated-world forecasting benchmark built on game rollouts from Freeciv, a turn-based strategy game modelled on the Civilization series. Forecasters receive a fixed world report (a structured snapshot of the current game state) and answer questions about hidden future states; the benchmark then continues the simulation and scores forecasts. Because the world is simulated, the same setup can generate continuous or binary forecasting questions at arbitrary time horizons, paired intervention worlds for conditional or causal questions, and resolved examples of rare or disruptive outcomes. We describe the benchmark pipeline, question families, scoring protocol, and release artifacts, and report validation slices from model evaluations and an anonymized human pilot. ForecastBench-Sim is intended to complement real-world forecasting benchmarks by providing controlled, immediately resolvable tasks for studying probabilistic reasoning under dynamic world states.
- Abstract(参考訳): 汎用AIシステムの予測ベンチマークは、通常は現実世界の制約を継承する。
我々は,Civilizationシリーズをモデルとしたターンベースの戦略ゲームであるFreecivのゲームロールアウト上に構築されたシミュレーションワールド予測ベンチマークであるForecastBench-Simを紹介する。
予測者は固定された世界レポート(現在のゲーム状態の構造化スナップショット)を受け取り、隠された将来の状態に関する質問に答える。
世界はシミュレートされているため、同じ設定で任意の時間軸で連続的または二分的な予測問題、条件付きまたは因果的な問題に対するペアの介入世界、稀または破壊的な結果の解決された例を生成することができる。
本稿では,ベンチマークパイプライン,質問ファミリ,スコアリングプロトコル,リリースアーティファクトについて述べるとともに,モデル評価と匿名化パイロットによる検証スライスを報告する。
ForecastBench-Simは、動的世界状態下で確率論的推論を研究するための制御された即時解決可能なタスクを提供することで、現実世界の予測ベンチマークを補完することを目的としている。
関連論文リスト
- ReactSim-Bench: Benchmarking Reactive Behavior World Model Simulation in Autonomous Driving [56.96697737229895]
リアクティブ能力は、自律運転シミュレーションシステムのためのデータ駆動行動世界モデルシミュレータの重要な特性である。
本稿では,自律運転における行動世界モデルシミュレーションの反応性を評価するためのReactSim-Benchを紹介する。
論文 参考訳(メタデータ) (2026-06-12T03:11:06Z) - World Models Meet Language Models: On the Complementarity of Concrete and Abstract Reasoning [67.93052893044603]
本研究では,抽象的推論を伴う視覚的未来のシミュレーションを,モデルがどのように実行し,検証し,統合するかを考察する。
PF-OPSDは、教師側の特権的文脈としてのみ、地道な未来のビデオと回答を使用して、政治上の具体的な軌道を評価する。
論文 参考訳(メタデータ) (2026-06-02T13:07:49Z) - RealBench: Benchmarking Data-Driven Numerical Weather Forecasting Under Operational Conditions and Extreme Event Challenges [31.389267895745252]
本稿では,AI天気予報のための次世代ベンチマークであるRealBenchを紹介する。
RealBenchは、データ漏洩をなくし、最近の大気環境を捉えるために、2025年ごろに展開された、厳密にアウト・オブ・ディストリビューションテストのセットを特徴としている。
ローレイテンシな運用分析や,10,000以上のステーションで構成される大規模グローバルなその場観測データセットなど,複数のデータソースを統合している。
論文 参考訳(メタデータ) (2026-05-24T08:46:17Z) - FutureSim: Replaying World Events to Evaluate Adaptive Agents [69.52411849743358]
我々はFutureSimを構築し、エージェントは世界の時系列的なリプレイと対話しながら、知識の遮断を越えて世界の出来事を予測する。
FutureSimは、その能力の明確な分離を明らかにし、最高のエージェントの精度は25%であり、多くは予測を全く行わずにBrierのスキルスコアが劣っている。
全体として、我々のベンチマーク設計は、現実世界の長い時間軸にまたがるオープンエンド適応において、AIの進歩を測定するための道を開くことを願っている。
論文 参考訳(メタデータ) (2026-05-14T17:59:28Z) - What if Tomorrow is the World Cup Final? Counterfactual Time Series Forecasting with Textual Conditions [17.093435375113298]
時系列予測は、現実のシナリオにおいてますます重要になっている。
伝統的な手法は、典型的には歴史的データや現実的な将来の状況に依存している。
本稿では,テキストによる時系列予測の課題について紹介する。
論文 参考訳(メタデータ) (2026-05-14T06:10:23Z) - AGWM: Affordance-Grounded World Models for Environments with Compositional Prerequisites [18.635313325437664]
我々は,行動の動的実行可能性を明確に追跡するために,前提条件依存のDAGとして表される抽象的な空き構造を学習するAGWM(Affordance-Grounded World Model)を提案する。
ゲームベースのシミュレーション環境の実験では、より低いマルチステップ予測誤差、新しい構成へのより良い一般化、解釈可能性の向上により、本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-05-07T18:46:44Z) - Towards Real-world Human Behavior Simulation: Benchmarking Large Language Models on Long-horizon, Cross-scenario, Heterogeneous Behavior Traces [81.41397370235102]
我々はOmniBehaviorを紹介した。OmniBehaviorは実世界のデータから構築された最初のユーザシミュレーションベンチマークである。
現在のモデルでは,コンテキストウィンドウが拡大しても,複雑な振る舞いを正確にシミュレートすることが困難であることを示す。
この結果、個人差や長い尾の挙動が失われ、将来の高忠実度シミュレーション研究における重要な方向性が浮き彫りになる。
論文 参考訳(メタデータ) (2026-04-09T15:26:21Z) - TemporalBench: A Benchmark for Evaluating LLM-Based Agents on Contextual and Event-Informed Time Series Tasks [12.114998959919978]
強い予測性能が真の時間的理解を反映しているか、文脈的・事象駆動的条件下での推論能力を反映しているかは明らかでない。
よりリッチな情報環境下での時間的推論行動を評価するために設計されたマルチドメインベンチマークである TemporalBench を紹介する。
将来のターゲットやコンテキスト情報へのアクセスを制御することで、モデルが時間的パターンを正しく解釈できるかどうかの診断分析が可能になる。
論文 参考訳(メタデータ) (2026-02-05T01:02:19Z) - GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation [11.896059467313668]
本研究では,多様なトラフィックシナリオに対応する動的時間的シーングラフをオンデマンドで生成し,ユーザ定義の好みに合わせて作成する手法を提案する。
時間的グラフニューラルネットワーク(GNN)モデルは、実世界の相互作用パターンによって導かれる、エゴ・車両エージェントと静的構造の関係を予測することを学習する。
予測されたシナリオをシミュレーションでレンダリングし、AVエージェントのテスト環境としての有効性をさらに実証する。
論文 参考訳(メタデータ) (2024-10-17T13:02:06Z) - NAVSIM: Data-Driven Non-Reactive Autonomous Vehicle Simulation and Benchmarking [65.24988062003096]
我々は,視覚に基づく運転ポリシーをベンチマークするフレームワークであるNAVSIMを提案する。
我々のシミュレーションは非反応性であり、評価された政策と環境は互いに影響を与えない。
NAVSIMはCVPR 2024で開催され、143チームが433のエントリーを提出し、いくつかの新たな洞察を得た。
論文 参考訳(メタデータ) (2024-06-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。