論文の概要: Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference
- arxiv url: http://arxiv.org/abs/2606.17165v2
- Date: Thu, 18 Jun 2026 16:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.699437
- Title: Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference
- Title(参考訳): LLMに基づくA/Bテストの統計的基礎:人間の因果推論のためのサロガシーフレームワーク
- Authors: Joel Persson, Mårten Schultzberg, Sebastian Ankargren,
- Abstract要約: 大規模言語モデル(LLM)で推定された治療効果が,ヒトの関心事に対する影響を回復できるかどうかを検討した。
LLMと人間の成果の間の分布的等価性は、標準推定器を有効にするが、非現実的である。
LLMに対するA/Bテストは仮定によってのみ正しい結果が得られるが、人間に対するA/Bテストは設計によって正しい。
- 参考スコア(独自算出の注目度): 0.509780930114934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organizations and researchers show increasing interest in using large language models (LLMs) in place of human participants in A/B tests, in the hope of experimenting faster and at lower cost. We study when a treatment effect estimated on LLM outcomes can recover the effect that would have been measured on the human population of interest. Distributional equivalence between LLM and human outcomes would make any standard estimator valid but is unrealistic. We therefore develop a statistical framework that adapts surrogate endpoint theory to LLMs, showing that calibrating LLM outcomes to human outcomes identifies the average treatment effect under surrogacy and comparability conditions that are jointly weaker than distributional equivalence. We present a falsification test for surrogacy and a bound on the worst-case bias from limited overlap between the LLM and human samples. We further show that the stochasticity inherent to LLMs can weaken surrogacy for identification while also introducing bias and variance during estimation, but that using an average over multiple LLM draws per unit as the surrogate mitigates these issues. Simulations validate the results, and an empirical application to A/B tests on Upworthy headlines shows that raw LLM predictions recover only 39\% of the human treatment effect while nonparametric calibration closes the gap. A central takeaway is that A/B testing on LLMs yields correct results only by assumption, whereas A/B testing on humans is correct by design, and that the required assumptions are hardest to justify precisely where A/B testing on LLMs promises the greatest benefit. We discuss the role of LLM choice, prompting, and temperature as design variables, the compounded challenge posed by long-term outcomes, and how to size human pilot studies for validation.
- Abstract(参考訳): 組織や研究者は、A/Bテストの参加者の代わりに大きな言語モデル(LLM)を使うことへの関心が高まっている。
LLMの結果を推定した治療効果が、ヒトの関心事に対する影響を回復できるかどうかを調べた。
LLMと人間の成果の間の分布的等価性は、標準推定器を有効にするが、非現実的である。
そこで我々は, LLM の終端理論を LLM に適応させる統計的枠組みを開発し, LLM の結果を人間の結果に校正することで, 分布同値性よりも相補的, 相補的条件下での平均処理効果を同定することを示した。
LLMとヒトのサンプルの重なりが限定的であることから, 代理性に対するファルシフィケーションテストと, 最悪の場合のバイアスに対するバウンドについて検討した。
さらに、LLMに固有の確率性は、推定中にバイアスや分散を導入しながら、識別の確率性を弱めるが、複数のLLMを平均的に使用することで、これらの問題を軽減できることを示した。
シミュレーションにより結果が検証され、Upworthyの見出し上でA/Bテストへの実証的な適用により、生のLCM予測はヒトの治療効果の39倍しか回復せず、非パラメトリックキャリブレーションはギャップを閉じていることが示された。
LLM上でのA/Bテストは仮定によってのみ正しい結果が得られるが、人間でのA/Bテストは設計によって正しい。
設計変数としてのLCM選択, 促進, 温度, 長期的成果による複合的課題, 検証のための人間パイロット研究の規模について検討する。
関連論文リスト
- The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study [56.649987197786096]
大規模言語モデル(LLM)は人間の行動のシミュレータとしての可能性を示している。
LLMは潜在ユーザ属性の意図しないシフトを誘発し、ユーザのドリフトを引き起こす。
ユーザのドリフトによって生じる不確実性や選択バイアスを形式化する。
論文 参考訳(メタデータ) (2026-05-20T06:09:41Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - This human study did not involve human subjects: Validating LLM simulations as behavioral evidence [15.56427716190418]
ヒューリスティックなアプローチは、シミュレーションされた観察された人間の行動が交換可能であることを確立する。
統計的キャリブレーションは、観察された反応とシミュレーションされた反応の相違を説明するために、補助的な人間のデータと統計的調整を組み合わせる。
論文 参考訳(メタデータ) (2026-02-17T18:18:38Z) - IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management [11.302500716500893]
LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートする新しいツールである。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
論文 参考訳(メタデータ) (2025-09-30T20:20:58Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.27624021966289597]
大きな言語モデル(LLM)は、人間の振る舞いをシミュレートする素晴らしい可能性を示している。
実験をシミュレートする上での根本的な課題を特定します。
LLMを模擬した被験者が実験設計に盲目である場合、治療のバリエーションは不特定変数に系統的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-24T16:32:35Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。