論文の概要: When Surveys Become Conversations: Adaptive Matrix Validation for AI-Assisted Interviews
- arxiv url: http://arxiv.org/abs/2606.24244v1
- Date: Tue, 23 Jun 2026 07:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.824714
- Title: When Surveys Become Conversations: Adaptive Matrix Validation for AI-Assisted Interviews
- Title(参考訳): 調査が会話になるとき:AI支援インタビューのための適応的マトリックス検証
- Authors: Tyler H. McCormick,
- Abstract要約: 本稿では,AIを用いたインタビューを各応答者が完了する適応行列検証(AMV)を提案する。
推定器はまず、他の回答者の検証回答を使ってマッピングされた値を校正し、残りのエラーを修正する。
設計校正シミュレーション,アメリカン・タイム・ユース・サーベイ・エミュレーション,およびCHAMPS言語・オートプシー・ナラティブスタディは,スパース・バリデーションが精度を向上できることを示す。
- 参考スコア(独自算出の注目度): 1.3875545441867139
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI-assisted interviews promise to reduce respondent burden in surveys by allowing respondents to describe experiences naturally while an AI system noisily maps those accounts into structured survey variables. That mapping is a measurement process that is fallible, versioned, adaptive, and potentially behaves differently across subgroups. This paper proposes Adaptive Matrix Validation (AMV), a design in which each respondent completes an AI-assisted interview, which is then mapped into tabular data by the AI. Respondents are also asked a small, randomized set of structured questions, which are used for statistical adjustment. The estimator first calibrates the mapped values using validation answers from other respondents, then corrects the remaining error with the validation answers observed for the target respondent. The paper develops estimators for item means, subgroup estimates, and regression coefficients when outcomes, predictors, or both are mapped from interviews. It also gives planning formulas the number of validation questions required and the sample size. A design-calibration simulation, an American Time Use Survey emulation, and a CHAMPS verbal-autopsy narrative study show when sparse validation can improve precision and when it cannot
- Abstract(参考訳): AI支援インタビューは、回答者が自然に経験を記述できるようにし、AIシステムがこれらのアカウントを構造化された調査変数にノイズなくマッピングすることで、調査の応答負担を軽減することを約束する。
そのマッピングは、誤用し、バージョン付けされ、適応され、潜在的にサブグループ間で異なる振る舞いをする測定プロセスである。
本稿では,適応行列検証(AMV, Adaptive Matrix Validation)を提案する。
レスポンデントはまた、統計的な調整に使用される、小さなランダム化された構造化された質問の集合を問う。
推定器は、まず、他の回答者の検証結果を用いてマッピングされた値を校正し、残りのエラーを、対象の応答者に対して観測された検証結果で補正する。
本稿では, 結果, 予測器, あるいはその両方がインタビューからマッピングされた場合に, 項目平均, サブグループ推定, 回帰係数の推定器を開発する。
また、プランニング公式には、必要なバリデーション質問の数とサンプルサイズも記述されている。
設計校正シミュレーション、アメリカン・タイム・ユース・サーベイ・エミュレーション、CHAMPS言語・オートプシー・ナラディスタディは、スパース・バリデーションが精度を向上できるか、それができないかを示す。
関連論文リスト
- Adaptive political surveys and GPT-4: Tackling the cold start problem with simulated user interactions [5.902306366006418]
適応質問票は, アンケート参加者に対して, 前の回答に基づいて, 次の質問を動的に選択する。
デジタル化により、これらは政治科学などの応用分野における伝統的な調査の代替となる。
1つの制限は、質問の選択のためにモデルをトレーニングするデータへの依存である。
適応型政治調査の統計モデルを事前学習するために,合成データが利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-03-12T12:02:36Z) - Variability Need Not Imply Error: The Case of Adequate but Semantically Distinct Responses [7.581259361859477]
不確実性定量化ツールは、モデルが不確実である場合の応答を拒否するために使用できます。
我々は、モデルがAdequate Responses (PROBAR)に割り当てる確率を推定する。
ProBARはアンビグニティ/オープンエンディエントネスの異なるプロンプトでセマンティックエントロピーを上回ります。
論文 参考訳(メタデータ) (2024-12-20T09:02:26Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Keeping Users Engaged During Repeated Administration of the Same Questionnaire: Using Large Language Models to Reliably Diversify Questions [2.657841934326794]
仮想エージェント管理アンケートの繰り返し使用は、応答性疲労を引き起こす可能性がある。
本研究では,大規模言語モデル (LLM) を用いて多様なアンケートモデルを作成することを提案する。
論文 参考訳(メタデータ) (2023-11-21T16:20:49Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - A Wrong Answer or a Wrong Question? An Intricate Relationship between
Question Reformulation and Answer Selection in Conversational Question
Answering [15.355557454305776]
会話の文脈における質問書き直し(QR)は、この現象により多くの光を放つことができることを示す。
TREC CAsT と QuAC (CANARD) のデータセットを用いて解析を行った。
論文 参考訳(メタデータ) (2020-10-13T06:29:51Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。