論文の概要: Security and Privacy Prompts in the Wild: What Users Ask LLMs and How LLMs Respond
- arxiv url: http://arxiv.org/abs/2606.18062v1
- Date: Tue, 16 Jun 2026 15:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.517082
- Title: Security and Privacy Prompts in the Wild: What Users Ask LLMs and How LLMs Respond
- Title(参考訳): セキュリティとプライバシのプロンプト:LLMに質問するものとLLMがどう反応するか
- Authors: Hobin Kim, Xiaoyuan Wu, Omer Akgul, Lujo Bauer, Nicolas Christin,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザの情報ニーズを満たすために広く使われている。
特に未調査の分野として、デジタルセキュリティとプライバシ(S&P)がある。
本研究は14,727個のS&Pプロンプトを同定し,幅広いS&Pトピックをカバーする9つのカテゴリに分類する。
- 参考スコア(独自算出の注目度): 14.523775147997354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are widely used to fulfill users' information needs; users ask LLMs about the weather, pose educational questions, and consult them for legal assistance. One particularly understudied area is digital security and privacy (S&P), where users may seek LLMs' help on how to secure their online accounts or protect their computers from cyber attacks. To the best of our knowledge, no prior study has collected or analyzed the S&P questions users ask LLMs; prior research on LLM response quality relied on expert-authored S&P misconceptions or FAQs rather than user queries. Drawing from WildChat, a dataset of 3.2M user-LLM conversations collected in the wild, our study identifies 14,727 S&P prompts and categorizes them into nine categories covering a wide range of S&P topics. From the S&P prompts, we sampled 450 and performed a thematic analysis to characterize the S&P questions users ask LLMs. Separate from the thematic analysis, we curated 270 advice-seeking S&P prompts, where users ask for recommendations, guidance, or specific S&P information. We measured LLM response quality and consistency when posing the prompt to LLMs 10 times. We found that commercial LLMs outperform open-weight models (GPT 5.5 provided "good enough" responses on 98% of prompts; Llama 4 on 47%). However, among prompts that received high-quality responses on average, commercial models sometimes produce contradictory responses across runs, risking confusing or misleading users.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザの情報ニーズを満たすために広く使われており、ユーザは天気についてLLMに尋ね、教育的な質問をし、法的援助のためにそれらを相談する。
デジタルセキュリティとプライバシ(S&P)は、オンラインアカウントの確保やコンピュータのサイバー攻撃から保護する方法に関して、LLMの助けを求めることができる。
我々の知る限り、S&P質問の事前調査や分析は行われていない; LLMの応答品質に関する以前の研究は、専門家が作成したS&Pの誤解やFAQに依存していた。
野生で収集された320万件のユーザー・LLM会話のデータセットであるWildChatから、本研究では14,727件のS&Pプロンプトを特定し、幅広いS&Pトピックをカバーする9つのカテゴリに分類した。
S&Pプロンプトから450点をサンプリングし,S&P質問のLCMを特徴付けるテーマ分析を行った。
テーマ分析とは別に、270件のアドバイス検索S&Pプロンプトをキュレートし、ユーザーは推薦、ガイダンス、特定のS&P情報を求める。
LLMに対するプロンプトを10回行うと,LLM応答の質と一貫性が測定された。
商業LLMはオープンウェイトモデル(GPT 5.5ではプロンプトの98%、Llama 4は47%)より優れていた。
しかし、高品質なレスポンスを平均で受けるプロンプトの中で、商業モデルは実行中に矛盾する応答を生じさせ、混乱や誤解を招くリスクを負うことがある。
関連論文リスト
- User Perceptions of Privacy and Helpfulness in LLM Responses to Privacy-Sensitive Scenarios [10.12906605142667]
本稿では,プライバシに敏感なシナリオに反応する大規模言語モデルにおいて,ユーザがプライバシ保護の質や有用性をどのように感じているかを示す。
以上の結果から,プライバシを保ちながらユーザを支援するLCMの能力を測定することの必要性が示唆された。
論文 参考訳(メタデータ) (2025-10-23T16:38:26Z) - Can LLMs Ask Good Questions? [45.54763954234726]
大規模言語モデル(LLM)が生成する質問を文脈から評価する。
質問タイプ,質問長,コンテキストカバレッジ,回答可能性,不共通性,必要な回答長の6つの次元にわたる人間による質問と比較した。
論文 参考訳(メタデータ) (2025-01-07T03:21:17Z) - Learned, Lagged, LLM-splained: LLM Responses to End User Security Questions [6.296075879105254]
GPT、LLAMA、Geminiといった大規模言語モデル(LLM)は、セキュリティ以外のさまざまな質問に答える上で、有望であることを示している。
エンドユーザセキュリティの分野におけるLLMの性能について,900件のユーザセキュリティ質問に対して,定性的に3つのLLMを評価検討した。
論文 参考訳(メタデータ) (2024-11-21T20:36:36Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Are LLMs Aware that Some Questions are not Open-ended? [58.93124686141781]
大規模言語モデルでは、いくつかの質問が限定的な回答を持ち、より決定論的に答える必要があることを認識しているかどうかを調査する。
LLMにおける疑問認識の欠如は,(1)非オープンな質問に答えるにはカジュアルすぎる,(2)オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。
論文 参考訳(メタデータ) (2024-10-01T06:07:00Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Can Large Language Models Provide Security & Privacy Advice? Measuring
the Ability of LLMs to Refute Misconceptions [13.93127660179291]
大規模言語モデル(LLM)が信頼できる情報ソースとして最近登場した。
一般大衆が抱いている一般的なS&Pの誤解を解消する能力を測定する。
論文 参考訳(メタデータ) (2023-10-03T20:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。