論文の概要: How reliable are LLMs when it comes to playing dice?
- arxiv url: http://arxiv.org/abs/2606.07515v2
- Date: Thu, 11 Jun 2026 16:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.310639
- Title: How reliable are LLMs when it comes to playing dice?
- Title(参考訳): ダイスをプレイする上で、LLMはどの程度信頼できますか?
- Authors: Luca Avena, Gianmarco Bet, Bernardo Busoni,
- Abstract要約: 離散確率問題に対する制御ベンチマークによる大規模言語モデルの推論能力について検討する。
モデルの平均精度は標準問題では0.96であるが、直観に反するものでは0.59である。
このプロンプトに誤解を招く提案を埋め込むことで、パフォーマンスが最大34%低下し、免疫力を示すモデルが存在しない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the probabilistic reasoning capabilities of large language models through a controlled benchmarking study on discrete probability problems. We constructed two datasets, respectively a set of standard exercises and a set of counterintuitive exercises, designed to trigger heuristic reasoning, and evaluated 8 state-of-the-art models, each tested with and without Chain-of-Thought prompting. Models achieve an average accuracy of 0.96 on standard problems but only 0.59 on counterintuitive ones. We further provide empirical evidence of token bias: performance drops by over 20% when canonical formulations are replaced by disguised variants. Embedding misleading suggestions in the prompt reduces performance by up to 34%, with no model proving immune. Taken together, the reported findings suggest that current LLMs are not yet genuine probabilistic reasoners, despite their success in advanced mathematical problems.
- Abstract(参考訳): 本研究では,大規模言語モデルの確率論的推論能力について,離散確率問題に対する制御型ベンチマークによる検討を行った。
我々は,それぞれ標準エクササイズと反直感的エクササイズの2つのデータセットを構築し,ヒューリスティック推論のトリガーとして設計し,それぞれがチェーン・オブ・サート・プロンプトでテストされた8つの最先端モデルを評価した。
モデルの平均精度は標準問題では0.96であるが、直観に反するものでは0.59である。
さらに、トークンバイアスの実証的な証拠として、正規の定式化が偽の変型に置き換えられると、性能が20%以上低下する。
このプロンプトに誤解を招く提案を埋め込むことで、パフォーマンスが最大34%低下し、免疫力を示すモデルが存在しない。
報告された結果は、現在のLSMは高度な数学的問題に成功しているにもかかわらず、真の確率論的推論者ではないことを示唆している。
関連論文リスト
- Clustered Self-Assessment: A Simple yet Effective Method for Uncertainty Quantification in Large Language Models [44.59799077650502]
本研究では,大規模言語モデルにおける不確実性定量化のための簡易かつ効果的な自己評価手法を提案する。
提案手法は,世代を意味的に異なるクラスタに分類し,構造化された複数選択質問の回答オプションに変換し,モデルによって割り当てられた確率を信頼度推定として利用する。
論文 参考訳(メタデータ) (2026-06-02T16:25:54Z) - Bayesian Elicitation with LLMs: Model Size Helps, Extra "Reasoning" Doesn't Always [0.0]
大規模言語モデル (LLM) は、未知の量と関連する不確実性を推定するための人間の専門家の代替として提案されている。
我々は、健康率、性格特性分布、労働市場統計など、11のLCMに人口統計を推定するよう求め、これを検証した。
が結果を改善するかどうかをテストするために、各モデルの推論の取り組みを変える。
論文 参考訳(メタデータ) (2026-04-02T11:00:13Z) - LiveMathematicianBench: A Live Benchmark for Mathematician-Level Reasoning with Proof Sketches [61.30693283718321]
研究レベルの数学的推論のための動的多重選択ベンチマークであるLiveMathematicianBenchを提案する。
新たに発表された定理で評価を基礎づけることで、記憶されたパターンを超えた現実的なテストベッドを提供する。
このパイプラインは、高レベルな証明戦略を使用して、妥当だが無効な解選択を構築する。
論文 参考訳(メタデータ) (2026-04-02T08:22:17Z) - Brittlebench: Quantifying LLM robustness via prompt sensitivity [44.950999933205985]
モデル感度を定量化する理論的枠組みを導入する。
我々は、フロンティアモデルの感度を均等に評価するために、新しい評価パイプラインであるBrttlebenchを設計する。
セマンティクスを保存する入力摂動は、与えられたモデルの性能変動の最大半分を占めることができる。
論文 参考訳(メタデータ) (2026-02-27T21:12:13Z) - Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - The Illusion of Certainty: Uncertainty quantification for LLMs fails under ambiguity [48.899855816199484]
そこで本研究では,第1の曖昧な質問応答(QA)データセットであるMAQA*とAmbigQA*を紹介する。
予測分布とアンサンブルに基づく推定器は、あいまいさの下では基本的に限定的であることを示す。
論文 参考訳(メタデータ) (2025-11-06T14:46:35Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - How often are errors in natural language reasoning due to paraphrastic variability? [29.079188032623605]
本稿では,自然言語推論モデルのパラフラスティック一貫性を評価するための指標を提案する。
我々は、この計量をパラフレーズ化に起因するモデルの正しさの分散の比率に数学的に結合する。
そこで我々は,7,782人の人間による記述・検証された推論問題のデータセットであるParaNLUを収集した。
論文 参考訳(メタデータ) (2024-04-17T20:11:32Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。