論文の概要: StatABench: Dataset and Framework for Evaluating Statistical Analysis Capabilities of LLMs
- arxiv url: http://arxiv.org/abs/2606.22977v1
- Date: Mon, 22 Jun 2026 07:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:07:12.142542
- Title: StatABench: Dataset and Framework for Evaluating Statistical Analysis Capabilities of LLMs
- Title(参考訳): StatABench:LLMの統計的解析能力評価のためのデータセットとフレームワーク
- Authors: Youxin Zhu, Yixuan Ding, Peng Lai, Longyue Wang, Bingyi Jing, Guanhua Chen,
- Abstract要約: 本稿では,大規模言語モデルの統計的解析能力を評価するためのベンチマークであるStatABenchを紹介する。
Stat-Closedは18の統計トピックにまたがる404の質問を複数のフォーマットで含む。
我々は,LangChain MCP フレームワークと複数のデータサイエンスエージェントを用いて多様な LLM を評価し,検証された LLM-as-Judge プロトコルを用いてStat-Open ソリューションを評価する。
- 参考スコア(独自算出の注目度): 26.57002473586959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Statistical analysis is a broad, complex field requiring both domain knowledge and tool proficiency. While prior work has evaluated large language models (LLMs) in this domain, existing benchmarks remain limited in scope and format. To bridge this gap, we introduce StatABench (Statistical AnalysisBenchmark), a benchmark designed to systematically assess LLMs' statistical analysis capabilities. StatABench comprises two complementary components: Stat-Closed, containing 404 questions across 18 statistical topics in multiple formats (multiple-choice, fill-in-the-blank, decision-making, and practical application), and Stat-Open, featuring 30 complex open-ended modeling tasks adapted from professional competitions. We evaluate diverse LLMs using the LangChain MCP framework and multiple data science agents, and assess Stat-Open solutions via a validated LLM-as-Judge protocol. Experiments show that even GPT-5.1 achieves only 68.6% on Stat-Closed, while the best open-source model reaches 60.6%. On Stat-Open, the top agent framework scores 61.86 on average. These results reveal the gap between current LLMs and reliable statistical analysis, highlighting persistent challenges in tool-grounded reasoning, methodological decision-making, and end-to-end statistical modeling.
- Abstract(参考訳): 統計的分析は、ドメイン知識とツール能力の両方を必要とする広範囲で複雑な分野である。
これまでの作業では、この領域で大きな言語モデル(LLM)を評価していたが、既存のベンチマークはスコープとフォーマットに限られていた。
このギャップを埋めるために,LLMの統計解析能力を体系的に評価するベンチマークであるStatABench(Statistical AnalysisBenchmark)を導入する。
Stat-Closedは18の統計トピックにまたがる404の質問を複数のフォーマット(複数選択、補足、意思決定、実践的応用)と、30の複雑なオープンエンドモデリングタスクをプロフェッショナルコンペティションに適合させるStat-Openで構成されている。
我々は,LangChain MCP フレームワークと複数のデータサイエンスエージェントを用いて多様な LLM を評価し,検証された LLM-as-Judge プロトコルを用いてStat-Open ソリューションを評価する。
実験の結果、GPT-5.1でさえStat-Closedで68.6%しか達成せず、最高のオープンソースモデルは60.6%に達した。
Stat-Openでは、トップエージェントフレームワークの平均スコアは61.86である。
これらの結果は,現在のLCMと信頼性統計解析のギャップを明らかにし,ツール基底推論,方法論的意思決定,エンドツーエンド統計モデリングにおける永続的な課題を浮き彫りにした。
関連論文リスト
- TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。
TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文 参考訳(メタデータ) (2026-01-30T17:28:56Z) - StatEval: A Comprehensive Benchmark for Large Language Models in Statistics [18.64342811887586]
StatEvalは統計学に特化した最初の総合ベンチマークであり、難易度をまたいだ幅と深さの両方にまたがる。
学部と大学院のカリキュラムに関する13,817の基本的な問題と、主要な雑誌から抽出された2374の研究レベルの証明タスクで構成されている。
本稿では,算術的タスクと証明的タスクの両方に適したロバストな評価フレームワークを提案し,推論能力のきめ細かい評価を可能にする。
論文 参考訳(メタデータ) (2025-10-10T16:28:43Z) - Do Large Language Models (Really) Need Statistical Foundations? [1.7741566627076264]
大規模言語モデル(LLM)は、構造化されていないデータを処理するための新しいパラダイムである。
本稿では, LLM の開発と応用が, 統計学的な貢献から真に恩恵を受けるかどうかを論じる。
論文 参考訳(メタデータ) (2025-05-25T13:44:47Z) - StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis [2.5541378136265047]
StatLLMは、統計解析において大規模言語モデルの性能を評価するためのオープンソースのデータセットである。
最初のコンポーネントは、さまざまな分析とデータセットにまたがる統計分析タスクを含む。
第2のコンポーネントは、ChatGPT 3.5、ChatGPT 4.0、Llama 3.1によって生成されたSASコードである。
第3のコンポーネントは、LLM生成コードの正確性、有効性、可読性、実行可能性、出力精度を評価するための、人間の専門家による評価スコアを含んでいる。
論文 参考訳(メタデータ) (2025-02-24T21:11:20Z) - Performance Evaluation of Large Language Models in Statistical Programming [9.333703895770913]
大規模言語モデル(LLM)は、自動コード生成に革命をもたらし、自動統計解析のための新しい道を開いた。
統計的解析のためのSASプログラミング分野において,ChatGPTの2バージョンとLlamaの1バージョンを含むLLMの性能を評価する。
我々は,LLMが生成するSASコードの品質を,正確性,有効性,可読性,実行可能性,出力結果の正確性に基づいて総合的に評価する。
論文 参考訳(メタデータ) (2025-02-18T18:37:15Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。