論文の概要: Generating Public Health Responses using Survey-Augmented Large Language Models
- arxiv url: http://arxiv.org/abs/2606.21820v1
- Date: Sat, 20 Jun 2026 01:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 02:55:33.288031
- Title: Generating Public Health Responses using Survey-Augmented Large Language Models
- Title(参考訳): 大規模言語モデルを用いた公衆衛生応答の生成
- Authors: Leonardo Marciaga, Thuyen Pham, Julia Rezvani, Alina Hyk, Chunyang Liao, Konstantinos Mitsopoulos, Raffaele Vardavas,
- Abstract要約: 疫学モデルは、個人が健康に関する意思決定を行う方法を表すために、調査データに依存することが多い。
本研究では,大規模言語モデルが実人口で観測されたパターンを再現する合成サーベイ応答を生成できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.46906883107634084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Epidemiological models often rely on survey data to represent how individuals make health-related decisions, such as whether to vaccinate or adopt protective behaviors. However, repeated large-scale surveys are costly, time-consuming, and limited in the range of scenarios they can capture. In this work, we investigate whether large language models (LLMs) can generate synthetic survey responses that reproduce patterns observed in real populations. Using longitudinal data from the FluPaths surveys, we first identify groups associated with broadly positive or negative attitudes toward vaccination through clustering analysis. We then evaluate several LLMs using a cluster-informed prompting approach to generate synthetic survey responses across multiple epidemic waves. Across models, the synthetic data generally reproduce the distributions of demographic characteristics, vaccination-related beliefs, risk perceptions, and health behaviors observed in the survey data. However, they are less successful at capturing how these factors vary together within respondents. Some models reproduce group-level vaccination trends more reliably than others, although performance varies across waves. We also trained a classifier to distinguish real from synthetic records and found that the generated responses remained identifiable as synthetic. Overall, our findings suggest that LLM-generated survey data may provide a useful tool for exploratory data augmentation and we hope that it could support agent-based epidemic modeling approaches. However, the generated data should not be treated as a substitute for human survey data without further methodological improvements and validation.
- Abstract(参考訳): 疫学モデルは、予防的行動の予防接種や適用など、個人が健康に関する決定を行う方法を示すために、調査データに依存することが多い。
しかしながら、大規模な調査を繰り返し実施することは、コストがかかり、時間がかかり、キャプチャ可能なシナリオの範囲が限られている。
本研究では,大規模言語モデル(LLM)が実人口で観測されたパターンを再現する合成サーベイ応答を生成できるかどうかを検討する。
FluPathsの調査から得られた縦断的データを用いて、クラスタリング分析により、予防接種に対する広い肯定的あるいは否定的な態度の集団を同定する。
次に、クラスタインフォームドプロンサリング手法を用いて複数のLCMを評価し、複数の流行波にまたがる総合的なサーベイ応答を生成する。
モデル全体では、総合データは一般的に、人口動態の特徴、予防接種に関連する信念、リスク知覚、および調査データに見られる健康行動の分布を再現する。
しかしながら、これらの要因が回答者の中でどのように異なるかを把握することには成功していない。
いくつかのモデルはグループレベルのワクチン接種傾向を他のモデルよりも確実に再現するが、性能は波によって異なる。
また,合成記録とリアルを区別するために分類器を訓練し,生成した反応が合成記録として識別可能であることを確認した。
以上の結果から, LLMによる調査データにより, 探索的データ拡張に役立つ可能性が示唆された。
しかし, 得られたデータは, さらなる方法論的改善と検証を伴わずに, 人間の調査データの代用として扱うべきではない。
関連論文リスト
- Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis [0.0]
本稿では,ゼロショット大言語モデル(LLM)が生成する健康調査データが,従来の反復比例フィッティングワークフローの入力として機能するかどうかを評価する。
GPT-4.1 と Gemini-2.5-Pro でコロラド州とミシシッピ州の総合調査記録を作成した。
生成したデータをIPFベースの合成パイプラインに使用し、結果の国勢調査レベルの合成人口を外部ベンチマークに対して評価する。
論文 参考訳(メタデータ) (2026-04-23T21:27:36Z) - Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility [7.616305266104683]
大規模言語モデル (LLM) は、計算社会科学における人間の判断のためのプロキシとして、ますます使われている。
LLMを模擬した調査の回答者が、誤情報信念と共有の人間のパターンを再現できるかどうかを検証した。
論文 参考訳(メタデータ) (2026-02-04T15:48:05Z) - Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare [7.075750841525739]
大きな言語モデル(LLM)によって駆動されるシリコの人間の振る舞いをシミュレートするために、生成剤がますます使われてきた
本研究は、医療意思決定に関する理解アメリカ研究(UAS)の調査データと、生成エージェントからのシミュレーション応答を比較した。
人口統計に基づくプロンプトエンジニアリングを用いて、調査回答者のデジタルツインを作成し、異なるLLMが現実世界の振る舞いをいかにうまく再現するかを分析する。
論文 参考訳(メタデータ) (2025-04-11T05:11:40Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Meta Flow Matching: Integrating Vector Fields on the Wasserstein Manifold [83.18058549195855]
自然科学における複数の過程は、確率密度のワッサーシュタイン多様体上のベクトル場として表さなければならない。
特に、疾患の発生とその治療反応が患者固有の細胞の微小環境に依存するパーソナライズド医療において重要である。
本稿では,初期個体群上の流れモデルを改善することで,ワッサーシュタイン多様体上のこれらのベクトル場と一体化するためのメタフローマッチング(MFM)を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:05:31Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Adversarial Sample Enhanced Domain Adaptation: A Case Study on
Predictive Modeling with Electronic Health Records [57.75125067744978]
ドメイン適応を容易にするデータ拡張手法を提案する。
逆生成したサンプルはドメイン適応時に使用される。
その結果,本手法の有効性とタスクの一般性が確認された。
論文 参考訳(メタデータ) (2021-01-13T03:20:20Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。