Fugu-MT 論文翻訳(概要): HelpBench: Assessing the Ability of LLMs to Provide Privacy, Safety, and Security Advice

論文の概要: HelpBench: Assessing the Ability of LLMs to Provide Privacy, Safety, and Security Advice

arxiv url: http://arxiv.org/abs/2606.24819v1
Date: Tue, 23 Jun 2026 17:05:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-24 22:16:49.109591
Title: HelpBench: Assessing the Ability of LLMs to Provide Privacy, Safety, and Security Advice
Title（参考訳）: HelpBench: プライバシ、安全性、セキュリティアドバイスを提供するLLMの能力を評価する
Authors: Sarah Meiklejohn, Sunny Consolvo, Patrick Gage Kelley, Tara Matthews, Sai Teja Peddinti, Renee Shelby, Lenin Simicich, Kurt Thomas,
Abstract要約: 本稿では,LLMがディジタルプライバシ,安全性,セキュリティに関する質問に対して,正確なヘルプを提供することができるかどうかを評価するベンチマークであるHelpBenchを紹介する。実際のユーザ状況を表す450の質問をキュレートし,回答の事実的正確さとトーンを評価するために,各質問に対するルーブリックを開発した。次に,18の最先端LCMからの応答を評価するためにオートレータを開発し,適用した。
参考スコア（独自算出の注目度）: 14.567827110950672
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper introduces HelpBench, a benchmark for assessing whether LLMs are capable of providing accurate help in response to questions about digital privacy, safety, and security. We curated 450 questions representing authentic user situations and developed rubrics for each question to evaluate the factual accuracy and tone of a response. Example questions touch on how to regain access to lost or suspended accounts, how to balance the trade-offs of hardware security keys versus other forms of two-factor authentication, whether a suspicious email is likely a scam, or whether an abuser might be able to track an individual based on their device peripherals. We then developed and applied an auto-rater to evaluate responses from 18 state-of-the-art LLMs. Our results indicate that while models provide high-quality advice (with scores of 82% on average), one in ten responses from models scores less than 65%, reflecting inaccurate and even harmful advice. Addressing these failures is critical for models to serve as trustworthy sources of assistance for digital privacy, safety, and security needs.
Abstract（参考訳）: 本稿では,LLMがディジタルプライバシ,安全性,セキュリティに関する質問に対して,正確なヘルプを提供することができるかどうかを評価するベンチマークであるHelpBenchを紹介する。実際のユーザ状況を表す450の質問をキュレートし,回答の事実的正確さとトーンを評価するために,各質問に対するルーブリックを開発した。例としては、失われたアカウントや停止アカウントへのアクセスを取り戻す方法、ハードウェアセキュリティキーと他の2要素認証のトレードオフのバランス、不審なメールが詐欺であるかどうか、不正使用者がデバイス周辺部に基づいて個人を追跡することができるかどうか、などが挙げられる。次に,18の最先端LCMからの応答を評価するためにオートレータを開発し,適用した。その結果、モデルが高品質なアドバイスを提供する一方で(平均82%のスコア)、モデルからの10人に1人が65%未満のスコアを示し、不正確で有害なアドバイスを反映していることがわかった。これらの障害に対処することは、モデルがデジタルプライバシ、安全性、セキュリティニーズに対する信頼できる支援源として機能するために重要である。

関連論文リスト

SecPI: Secure Code Generation with Reasoning Models via Security Reasoning Internalization [50.71047638695205]
RLM(Reasoning Language Model)は、プログラミングにおいてますます使われている言語モデルである。しかし、最先端のRLMでさえ、生成されたコードに重大なセキュリティ脆弱性を頻繁に導入する。我々は、構造化されたセキュリティ推論を内部化するためのRTMを教える微調整パイプラインであるSecPIを提案する。
論文参考訳（メタデータ） (2026-04-04T04:29:11Z)
Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check [32.82170313959032]
我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
論文参考訳（メタデータ） (2025-09-15T06:47:35Z)
Learned, Lagged, LLM-splained: LLM Responses to End User Security Questions [6.296075879105254]
GPT、LLAMA、Geminiといった大規模言語モデル(LLM)は、セキュリティ以外のさまざまな質問に答える上で、有望であることを示している。エンドユーザセキュリティの分野におけるLLMの性能について,900件のユーザセキュリティ質問に対して,定性的に3つのLLMを評価検討した。
論文参考訳（メタデータ） (2024-11-21T20:36:36Z)
Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文参考訳（メタデータ） (2024-11-05T18:58:00Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Is On-Device AI Broken and Exploitable? Assessing the Trust and Ethics in Small Language Models [1.5953412143328967]
オンデバイス人工知能(AI)の信頼性と倫理的意味を調査するための第1報について述べる。以上の結果から,デバイス上のSLMは信頼性が著しく低く,特にステレオタイプ,不公平,プライバシブリーチング行動が顕著であることがわかった。本研究は、デバイス上でのSLMの倫理的保護が欠如していることを示し、有害なコンテンツを生成する能力を強調した。
論文参考訳（メタデータ） (2024-06-08T05:45:42Z)
LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks [17.522223535347905]
大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。 SecLLMHolmesは,LLMがセキュリティ関連のバグを確実に識別し,原因を判断できるかどうか,これまでで最も詳細な調査を行う,完全に自動化された評価フレームワークである。
論文参考訳（メタデータ） (2023-12-19T20:19:43Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。