論文の概要: Beyond Averages: Evaluating LLMs on Human Survey Replication at the Distributional Level
- arxiv url: http://arxiv.org/abs/2606.09013v1
- Date: Mon, 08 Jun 2026 04:22:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.6963
- Title: Beyond Averages: Evaluating LLMs on Human Survey Replication at the Distributional Level
- Title(参考訳): 平均を超えて:LLMの評価 : 分布レベルでの人間調査のレプリケーション
- Authors: Jeonghyeon Moon, Jiwon Kim, Yeheum Lah, Yoonju Han, Yuncheol Kang,
- Abstract要約: 韓国のインスタントヌードル購入における非公益消費者選択実験を用いて,2010年調査の再現性を評価した。
我々は、平均レベル、パターン、分布アライメントにおける人間とLLMの反応を比較し、人間のデータのみからの基準ベースラインと比較した。
- 参考スコア(独自算出の注目度): 8.995779634140495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs are increasingly used to simulate human survey responses, but prior work has mainly evaluated replication using mean-level or aggregate agreement, offering limited insight into whether LLMs reproduce the variability of human behavior. We evaluate LLM-based survey replication at the distributional level using a non-public 2010 consumer choice experiment on Korean instant noodle purchases, a setting unlikely to overlap with model training data. We evaluate three response variables of differing statistical type: binary purchase incidence, categorical brand choice, and count purchase quantity. For each, we compare human and LLM responses at mean-level, pattern, and distributional alignment, and against reference baselines from the human data alone. LLMs reproduce condition-level patterns reasonably well but fail to capture distributional structure: for purchase quantity, no model beats a condition-insensitive baseline that simply matches the pooled human distribution. Because models that match human means well can still produce distributions further from humans than this baseline, mean-based evaluation alone can be actively misleading. Replication also varies with input configuration, with structured personas and multimodal inputs improving alignment while explicit reasoning prompting degrades it monotonically.
- Abstract(参考訳): LLMは、人間のサーベイ応答をシミュレートするために使われることが多いが、先行研究は主に平均レベルまたは集合的合意を用いて複製を評価し、LLMが人間の行動の多様性を再現するかどうかについての限られた洞察を与えてきた。
韓国のインスタントヌードル購入における一般消費者選択実験を2010年ノンパブリックに実施し,LLMによる調査再現を分布レベルで評価した。
統計型が異なる3つの応答変数として,二元購入頻度,カテゴリーブランド選択,数量購入量を評価した。
平均的, パターン的, 分布的アライメントにおける人間とLLMの反応を比較し, 人間のデータのみからの基準ベースラインと比較した。
LLMは、条件レベルのパターンを合理的に再現するが、分布構造を捉えることができず、購入量に対して、プールされた人間の分布にマッチする条件に敏感なベースラインを圧倒するモデルは存在しない。
人間とよく一致するモデルは、この基準線よりも人間から分布を産み出すことができるため、平均に基づく評価だけでは、積極的に誤解を招く可能性がある。
レプリケーションは入力構成によっても異なり、構造化されたペルソナとマルチモーダル入力はアライメントを改善し、明示的な推論は単調に分解する。
関連論文リスト
- Reaching Beyond the Mode: RL for Distributional Reasoning in Language Models [78.68818219506313]
本稿では,複数解に対する分布推論を行うための多解補足学習手法について述べる。
質問応答, 診断, コーディングベンチマークを通じて, 単一回答学習ベースラインと比較して, 多様性, カバレッジ, 設定レベルの校正スコアが向上した。
論文 参考訳(メタデータ) (2026-03-25T22:20:25Z) - Evaluating LLMs as Human Surrogates in Controlled Experiments [4.233590639227564]
大規模言語モデル(LLM)は、行動研究における人間の反応をシミュレートするためにますます使われている。
LLMが生成したデータがどのように人間のデータと同じ実験的な推論をサポートするかは、まだ不明である。
そこで,本研究では,既成のLCM生成応答と人間の応答とを比較し,精度知覚に関する標準調査実験から評価した。
論文 参考訳(メタデータ) (2026-03-08T16:03:27Z) - Evidence-based Distributional Alignment for Large Language Models [58.65469623911573]
LLM分布推定の忠実度とロバスト性を改善する証拠に基づくアライメント手法であるEvi-DAを提案する。
対象国が与えられた場合、Evi-DAは関連するWorld Values Survey項目とその回答分布を検索し、オプション毎に粗いヴェルツェル値シグネチャを予測し、国条件の回答分布を構造化形式で推測する。
論文 参考訳(メタデータ) (2026-03-03T03:34:06Z) - Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility [7.616305266104683]
大規模言語モデル (LLM) は、計算社会科学における人間の判断のためのプロキシとして、ますます使われている。
LLMを模擬した調査の回答者が、誤情報信念と共有の人間のパターンを再現できるかどうかを検証した。
論文 参考訳(メタデータ) (2026-02-04T15:48:05Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Mixture-of-Personas Language Models for Population Simulation [20.644911871150136]
大規模言語モデル(LLM)は、社会科学研究や機械学習モデルトレーニングにおいて、人為的なデータを増やすことができる。
MoPは文脈混合モデルであり、各コンポーネントは、ペルソナとサブポピュレーションの振る舞いを表す例によって特徴づけられるLMエージェントである。
MoPは柔軟性があり、モデル微調整を必要とせず、ベースモデル間で転送可能である。
論文 参考訳(メタデータ) (2025-04-07T12:43:05Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。