論文の概要: In-Context Learning for the Imputation of Public Opinion Data with Large Language Models
- arxiv url: http://arxiv.org/abs/2606.09351v1
- Date: Mon, 08 Jun 2026 11:25:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.941206
- Title: In-Context Learning for the Imputation of Public Opinion Data with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたパブリックオピニオンデータのインコンテクスト学習
- Authors: Tobias Holtdirk, Georg Ahnert, Joseph W Sakshaug, Anna-Carolina Haensch,
- Abstract要約: In-context Learning (ICL) を用いて, 欠落した調査データをインプットする手法を提案する。
異なる欠陥機構(MCAR, MAR, MNAR)間でのICL設計選択を系統的に評価する。
我々のICLアプローチは、非ランダム欠落(MNAR)の下で最大のゲインを持つ、すべての欠落メカニズムにおける絶対誤差を一貫して減少させる。
- 参考スコア(独自算出の注目度): 1.928261926292315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have been widely evaluated as simulators of individual survey responses. In practice, however, fully unobserved responses are rare; the dominant problem is partial non-response. Imputation aims to restore the overall structure of a survey dataset by filling in these missing values. It has its own well-defined evaluation criteria and differs fundamentally from prediction. We propose to impute missing survey data through in-context learning (ICL). We systematically evaluate ICL design choices across different missingness mechanisms (MCAR, MAR, MNAR) on 150 opinion variables spanning 15 waves of the American Trends Panel. Compared to well-established statistical methods for data imputation like MICE PMM, our ICL approach consistently reduces absolute error across all missingness mechanisms, with the largest gains under non-random missingness (MNAR). Notably, the best-performing specification (gpt-oss-120b with 100 in-context examples) achieves near-nominal aggregate coverage (approaching the 95% level) with confidence intervals two to five times narrower than MICE PMM. We publish a Python package with an sklearn-like API to enable easy deployment of our method using local and proprietary LLMs.
- Abstract(参考訳): 大規模言語モデルは個々の調査応答のシミュレータとして広く評価されている。
しかし実際には、完全に観測されていない応答はまれであり、主な問題は部分的な非応答である。
Imputationは、これらの欠落した値を埋めることによって、調査データセットの全体構造を復元することを目的としている。
評価基準は明確に定義されており、基本的には予測と異なる。
In-context Learning (ICL) を用いて, 欠落した調査データをインプットすることを提案する。
我々は、アメリカトレンドパネルの15波にまたがる150の意見変数に基づいて、異なる欠陥メカニズム(MCAR、MAR、MNAR)にまたがるICL設計選択を体系的に評価した。
MICE PMMのようなよく確立された統計計算手法と比較して、我々のICLアプローチは、すべての欠落メカニズムにおける絶対誤差を一貫して低減し、非ランダム欠落(MNAR)の下で最大のゲインを得る。
特に、最も優れた仕様(100のインコンテキスト例を持つgpt-oss-120b)は、MICE PMMの2倍から5倍の信頼区間を持つほぼ最小の集合カバレッジ(95%レベルの適用)を達成する。
ローカルおよびプロプライエタリなLLMを使用して,メソッドのデプロイを容易にするために,スケルンライクなAPIを備えたPythonパッケージを公開しています。
関連論文リスト
- Can Large Language Models Revolutionize Survey Research? Experiments with Disaster Preparedness Responses [6.004875368104112]
大規模な言語モデル(LLM)は治療として提案されているが、完全なサーベイワークフロー全体にわたる厳密な評価はほとんど残っていない。
アンケート設計, サンプル選択, パイロットテスト, 欠落データ計算, および収集後の分析を対象とする, LLM 統合のための5段階フレームワークを提示し, 評価した。
保護モチベーション理論 (PMT) 制約付き共起知識グラフを導入し, ゼロショット推論, 検索拡張ベースライン, 新規な理論インフォームド変種にまたがる7つのLLM構成を開発する。
論文 参考訳(メタデータ) (2026-05-19T00:58:36Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - None of the Others: a General Technique to Distinguish Reasoning from Memorization in Multiple-Choice LLM Evaluation Benchmarks [0.9831489366502301]
本稿では,これまで見られたトークンや概念から正解を完全に解離する,複数選択質問に対する一般的な変分手法を提案する。
この手法を用いて、英語とスペイン語で利用可能な2つのデータセットに基づいて、最先端のプロプライエタリおよびオープンソースLLMを評価する。
その結果, MMLUでは平均57%, UNED-Access 2024では50%の精度低下がみられた。
論文 参考訳(メタデータ) (2025-02-18T14:32:44Z) - Improving Bias Correction Standards by Quantifying its Effects on Treatment Outcomes [54.18828236350544]
Propensity score matching (PSM) は、分析のために同等の人口を選択することで選択バイアスに対処する。
異なるマッチング手法は、すべての検証基準を満たす場合でも、同じタスクに対する平均処理効果(ATE)を著しく異なるものにすることができる。
この問題に対処するため,新しい指標A2Aを導入し,有効試合数を削減した。
論文 参考訳(メタデータ) (2024-07-20T12:42:24Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Learning brain MRI quality control: a multi-factorial generalization
problem [0.0]
本研究の目的は,MRIQCパイプラインの性能評価である。
分析はMRIQCの前処理ステップに焦点を合わせ、パイプラインをそれなしでテストした。
我々は、CATIデータセットのような異種集団のデータで訓練されたモデルが、目に見えないデータの最良のスコアを提供すると結論付けた。
論文 参考訳(メタデータ) (2022-05-31T15:46:44Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。