Fugu-MT 論文翻訳(概要): UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

論文の概要: UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

arxiv url: http://arxiv.org/abs/2606.06622v2
Date: Mon, 08 Jun 2026 22:52:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 13:21:50.617604
Title: UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs
Title（参考訳）: UnpredictaBench: LLMにおける分布ランダム性評価ベンチマーク
Authors: Amirhossein Abaskohi, Amirhossein Dabiriaghdam, Liang Luo, Ellie Dingqiao Wen, Lele Wang, Giuseppe Carenini, Peter West,
Abstract要約: 我々はUnpredictaBenchを紹介した。これは、大きな言語モデルが真の基礎となる分布をキャプチャする能力をテストする評価である。単純な分布シミュレーションでさえも困難であり、複雑なシステムのスタンドインとしてLLMを使用するための第一歩となる。
参考スコア（独自算出の注目度）: 21.05820098186702
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce UnpredictaBench, an evaluation that tests the ability of large language models (LLMs) to capture true underlying distributions. As LLMs are increasingly used as substitutes for other entities (e.g., for humans in economic simulations), the tendency of many models to collapse towards a single plausible answer means a failure to capture the unpredictability of real systems. Recent work on improving output diversity is insufficient for this setting: simulation requires samples that are calibrated to a target distribution, not merely varied outputs. UnpredictaBench isolates a simplified but fundamental version of this problem: sampling outcomes from individual target distributions, including canonical statistical distributions, distributions induced by stochastic programs, and natural-language scenarios that describe random processes. We introduce 448 such problems together with KS@N, a general-purpose evaluation metric that quantifies how well a model outputs approximate black-box target distributions via the Kolmogorov-Smirnov statistical test. This is the rate at which we fail to reject model samples of size N against ground-truth samples, with larger N indicating greater difficulty. Tested across open and proprietary models, we find a large spread in distributional capabilities. For instance, when models generate samples of size 100 (KS@100, our standard metric), scores range from near 0 to over 20%. No model is able to achieve over 40% at KS@100, showing significant headroom in distributional sampling as a capability. Although adding reasoning can somewhat increase scores, we find no immediate solution for this issue. UnpredictaBench shows that even simple distributional simulation remains challenging, making it a necessary first step toward using LLMs as stand-ins for complex systems.
Abstract（参考訳）: 提案するUnpredictaBenchは,大規模言語モデル(LLM)の真の基盤となる分布を抽出する能力をテストする評価である。 LLMは他のエンティティ(例えば、経済シミュレーションにおける人間)の代用としてますます使われるようになったため、多くのモデルが単一の妥当な答えに向かって崩壊する傾向は、実際のシステムの予測不可能を捉えないことを意味している。シミュレーションには、単に出力が変化するだけでなく、ターゲット分布に調整されたサンプルが必要である。 UnpredictaBenchは、この問題の単純だが基本的なバージョンを分離する: 正規統計分布、確率的プログラムによって誘導される分布、ランダムなプロセスを記述する自然言語シナリオを含む、個々のターゲット分布から結果をサンプリングする。 KS@Nは,コルモゴロフ・スミルノフ統計テストを用いて,モデルが近似ブラックボックス対象分布をどれだけよく出力するかを定量化する汎用評価指標である。これは、N の大きさのモデルサンプルを、より大きい N がより困難であることを示して、地上真実のサンプルに対して拒否することができない速度である。オープンモデルとプロプライエタリモデルでテストした結果、分散機能が広範囲に分散していることが分かりました。例えば、モデルがサイズ100のサンプルを生成する場合(私たちの標準指標であるKS@100)、スコアは0から20%以上である。 KS@100で40%以上の達成が可能なモデルはなく、分散サンプリングを能力として有意義なヘッドルームを示す。推論を追加することでスコアを多少増やすことができるが、この問題に対する直接的な解決策は見つからない。 UnpredictaBench は、単純な分布シミュレーションでさえも困難であり、複雑なシステムのスタンドインとして LLM を使用するための第一歩であることを示している。

関連論文リスト

The Illusion of Stochasticity in LLMs [21.172079837071724]
我々は,信頼性サンプリングが大規模言語モデル (LLM) をエージェントとして動作させるための基本的な要件であることを示した。強力なフロンティアモデルでは、与えられたランダムな種を対象の分布に変換することができるが、特定の分布から直接サンプリングする能力には根本的な欠陥があることが示されている。
論文参考訳（メタデータ） (2026-04-08T00:44:14Z)
Large Language Models Are Bad Dice Players: LLMs Struggle to Generate Random Numbers from Statistical Distributions [50.1404916337174]
大規模言語モデル(LLM)における母国語の確率的サンプリングの大規模,統計的に活用された最初の監査について述べる。バッチ生成は, ほぼ完全に崩壊する一方, 中央値のパスレートが13%であり, 統計的妥当性はわずかであることがわかった。現在のLCMには機能的な内部サンプルが欠如しており、統計的保証を必要とするアプリケーションに外部ツールを使う必要があると結論付けている。
論文参考訳（メタデータ） (2026-01-08T22:33:12Z)
Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文参考訳（メタデータ） (2025-06-11T17:59:58Z)
Minimax Optimality of the Probability Flow ODE for Diffusion Models [8.15094483029656]
この研究は、決定論的ODEベースのサンプリングのための最初のエンドツーエンド理論フレームワークを開発する。 L2$のスコア誤差と関連する平均ジャコビアン誤差の両方を同時に制御するスムーズな正規化スコア推定器を提案する。得られたサンプルは全変動距離, 変調対数係数において最小値が得られることを示す。
論文参考訳（メタデータ） (2025-03-12T17:51:29Z)
Evaluating Binary Decision Biases in Large Language Models: Implications for Fair Agent-Based Financial Simulations [15.379345372327375]
エージェントベースの金融市場モデルにおいて、人間のような意思決定をシミュレートするために、LLM(Large Language Models)がますます使われている。我々は,2つのモデルサンプリングアプローチ(ワンショットと少数ショットのAPIクエリ)を用いて,最先端のGPTモデル3つをバイアスとして検証する。
論文参考訳（メタデータ） (2025-01-20T10:36:51Z)
Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Efficient Propagation of Uncertainty via Reordering Monte Carlo Samples [0.7087237546722617]
不確実性伝播は、入力変数の不確実性に基づいてモデル出力の不確実性を決定する技術である。本研究は,全ての試料が平均的に有用であるにもかかわらず,他の試料よりも有用であるとする仮説を考察する。本稿では、MCサンプルを適応的に並べ替える手法を導入し、UPプロセスの計算コストの削減をもたらす方法を示す。
論文参考訳（メタデータ） (2023-02-09T21:28:15Z)
Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文参考訳（メタデータ） (2021-10-20T12:25:22Z)
Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文参考訳（メタデータ） (2021-10-06T16:58:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。