論文の概要: Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference
- arxiv url: http://arxiv.org/abs/2606.17165v1
- Date: Mon, 15 Jun 2026 18:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.087349
- Title: Statistical Foundations of LLM-based A/B Testing: A Surrogacy Framework for Human Causal Inference
- Title(参考訳): LLMに基づくA/Bテストの統計的基礎:人間の因果推論のためのサロガシーフレームワーク
- Authors: Joel Persson, Mårten Schultzberg, Sebastian Ankargren,
- Abstract要約: 大規模言語モデル(LLMs)で推定された治療効果が,ヒトの関心事に対する影響を回復するかどうかを検討した。
LLMと人間の成果の間の分布的等価性は、標準推定器を有効にするが、非現実的である。
シミュレーションの手法と理論を解説し、Upworthyの見出しでA/Bテストに適用する。
- 参考スコア(独自算出の注目度): 0.509780930114934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Organizations and researchers show increasing interest in using large language models (LLMs) in place of human participants in A/B tests, in the hope of experimenting faster and at lower cost. We study when a treatment effect estimated on LLM outcomes recovers the effect that would have been measured on the human population of interest. Distributional equivalence between LLM and human outcomes would make any standard estimator valid but is unrealistic. We therefore develop a statistical framework that adapts surrogate endpoint theory to LLMs. The framework shows that calibrating LLM outcomes to human outcomes identifies the average treatment effect under surrogacy and comparability conditions that are jointly weaker than distributional equivalence. When these conditions fail, the effect of interest is only partially identified, and we provide diagnostics that can falsify surrogacy on historical experiments together with a bound on the worst-case bias from limited overlap. We further show that the stochasticity inherent to LLMs introduces both bias and variance, but using an average of multiple draws as the surrogate mitigates both. We illustrate the methods and theory in simulations and an application to A/B tests on Upworthy headlines. A central takeaway from our work is that the validity of LLM outcomes as surrogates can only be falsified for past treatments and never verified for new ones, so human experiments remain indispensable for novel interventions. We discuss the role of LLM choice, prompting, and temperature as design variables, and how to size human experiments for validation.
- Abstract(参考訳): 組織や研究者は、A/Bテストの参加者の代わりに大きな言語モデル(LLM)を使うことへの関心が高まっている。
LLMの結果から推定した治療効果が,ヒトの関心事に対する効果を回復させるかを検討した。
LLMと人間の成果の間の分布同値は、標準推定器を有効にするが、非現実的である。
そこで我々は,代用終端理論をLLMに適応させる統計的枠組みを開発した。
この枠組みは, LLMの結果を人間の結果に調整することにより, 分布同値性よりも相補的および相補的条件下での平均処理効果を同定することを示した。
これらの条件が失敗した場合、利害関係の影響は部分的にのみ特定され、過度なオーバーラップから最悪の場合のバイアスに縛られながら、歴史的実験における代理性を偽る診断を行うことができる。
さらに, LLMに固有の確率性は, 偏りと分散の両方をもたらすが, サロゲートの緩和効果として, 平均的な複数のドローを用いる。
シミュレーションの手法と理論を解説し、Upworthyの見出しでA/Bテストに適用する。
我々の研究の要点は、サロゲートとしてのLCM結果の有効性は過去の治療でのみファルシファイドすることができ、新しい治療では検証されないため、新規な介入には人間実験が不可欠であるということである。
設計変数としてのLCM選択, 促進, 温度, 検証のための人体実験の規模について検討する。
関連論文リスト
- The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study [56.649987197786096]
大規模言語モデル(LLM)は人間の行動のシミュレータとしての可能性を示している。
LLMは潜在ユーザ属性の意図しないシフトを誘発し、ユーザのドリフトを引き起こす。
ユーザのドリフトによって生じる不確実性や選択バイアスを形式化する。
論文 参考訳(メタデータ) (2026-05-20T06:09:41Z) - PREBA: Surgical Duration Prediction via PCA-Weighted Retrieval-Augmented LLMs and Bayesian Averaging Aggregation [51.96735866702332]
PreBAはPCA重み付き検索とベイズ平均アグリゲーションを統合した検索拡張フレームワークである。
例えば、PreBAはパフォーマンスを大幅に改善し、MAEを最大40%削減し、ゼロショット推論でR2を-0.13から0.62に引き上げる。
論文 参考訳(メタデータ) (2026-02-27T07:19:23Z) - This human study did not involve human subjects: Validating LLM simulations as behavioral evidence [15.56427716190418]
ヒューリスティックなアプローチは、シミュレーションされた観察された人間の行動が交換可能であることを確立する。
統計的キャリブレーションは、観察された反応とシミュレーションされた反応の相違を説明するために、補助的な人間のデータと統計的調整を組み合わせる。
論文 参考訳(メタデータ) (2026-02-17T18:18:38Z) - IV Co-Scientist: Multi-Agent LLM Framework for Causal Instrumental Variable Discovery [61.15184885636171]
内因性変数と結果との相同性の存在下では、インストゥルメンタル変数(IVs)を用いて内因性変数の因果効果を分離する。
大規模言語モデル(LLM)がこの課題に有効かどうかを検討する。
本稿では,多エージェントシステムであるIV Co-Scientistを紹介する。
論文 参考訳(メタデータ) (2026-02-08T12:28:29Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management [11.302500716500893]
LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートする新しいツールである。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
論文 参考訳(メタデータ) (2025-09-30T20:20:58Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.27624021966289597]
大きな言語モデル(LLM)は、人間の振る舞いをシミュレートする素晴らしい可能性を示している。
実験をシミュレートする上での根本的な課題を特定します。
LLMを模擬した被験者が実験設計に盲目である場合、治療のバリエーションは不特定変数に系統的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-24T16:32:35Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。