論文の概要: Discriminatory Compliance: How LLMs Answer Queries from Protected Groups
- arxiv url: http://arxiv.org/abs/2606.21296v1
- Date: Fri, 19 Jun 2026 10:19:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 14:35:40.699655
- Title: Discriminatory Compliance: How LLMs Answer Queries from Protected Groups
- Title(参考訳): 差別的コンプライアンス:LLMが保護されたグループからクエリを答える方法
- Authors: Dinesh Ayyappan, Carlos Castillo,
- Abstract要約: 保護されたアイデンティティグループからの質問に対して,最先端の大規模言語モデルが矛盾して応答することを示す。
我々は差別的コンプライアンスを、少数または保護された背景から不当に不利益なユーザーを答えるパターンとして定義する。
- 参考スコア(独自算出の注目度): 0.9730476478298455
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Chatbots developed using Large Language Models (LLMs) implement various safeguards for sensitive questions and/or scenarios. These safeguards require making certain assumptions about the person asking the question. We define discriminatory compliance as patterns in question answering that disproportionately disadvantage users from minority or protected backgrounds, for instance by omitting information that would be valuable for them. In this paper, we show that state-of-the-art LLMs respond inconsistently to questions from personas from protected identity groups, and that some of these inconsistencies mean that key information that should be provided to minority or protected background personas is missing. We show that this behavior is, additionally, inconsistent across and within model providers as well as across background conditions and ways of phrasing those conditions.
- Abstract(参考訳): LLM(Large Language Models)を使用して開発されたチャットボットは、センシティブな質問やシナリオのためのさまざまなセーフガードを実装している。
これらのセーフガードは、質問する人について特定の仮定をする必要がある。
我々は差別的コンプライアンスを、少数派や保護された背景から不当に不利な利用者に答えるパターンとして定義する。
本稿では,保護された個人集団のペルソナからの質問に対して,最先端のLDMが矛盾して応答することを示し,これらの不一致のいくつかは,マイノリティや保護された背景ペルソナに提供すべき重要な情報が欠落していることを意味する。
さらに、モデル提供者間およびモデル提供者内だけでなく、背景条件や条件の表現方法にも矛盾があることが示されています。
関連論文リスト
- Boundary-targeted Membership Inference Attacks on Safety Classifiers [70.20833439671131]
安全分類器は、セルフハームとメンタルヘルスの議論を含むセンシティブなデータセットに基づいて訓練される。
低信頼例を識別する新たな境界目標選択戦略を導入する。
実験により、相手は会話の19%を安全分類器が5%の偽陽性率でユーザーの苦痛を示すようにフラグ付けして回復できることが示された。
これは最先端のMIAメソッドだけで攻撃するより3.5ドル高い。
論文 参考訳(メタデータ) (2026-05-21T12:05:22Z) - Evaluating Language Model Reasoning about Confidential Information [95.64687778185703]
言語モデルが文脈的堅牢性を示すか、文脈依存型安全仕様に準拠する能力を示すかを検討する。
我々は,ユーザ要求がいつ承認されたか,言語モデルが正しく判断できるかどうかを測定するベンチマーク(PasswordEval)を開発した。
現在のオープンソースとクローズドソースのモデルでは、一見単純な作業に苦労しています。
論文 参考訳(メタデータ) (2025-08-27T15:39:46Z) - Guarding Your Conversations: Privacy Gatekeepers for Secure Interactions with Cloud-Based AI Models [0.34998703934432673]
ユーザクエリから機密情報をフィルタリングする,軽量でローカルな実行モデルであるLLMゲートキーパのコンセプトを提案する。
人間の被験者による実験を通して、この二重モデルアプローチは、LLM応答の品質を損なうことなく、ユーザのプライバシーを大幅に向上させながら、最小限のオーバーヘッドをもたらすことを示した。
論文 参考訳(メタデータ) (2025-08-22T19:49:03Z) - SoK: Semantic Privacy in Large Language Models [24.99241770349404]
本稿では,大規模言語モデル(LLM)の入力処理,事前学習,微調整,アライメント段階におけるセマンティックプライバシリスクを分析するライフサイクル中心のフレームワークを提案する。
我々は、鍵攻撃ベクトルを分類し、差分プライバシー、埋め込み暗号化、エッジコンピューティング、未学習などの現在の防御がこれらの脅威にどのように対処しているかを評価する。
セマンティックリークの定量化、マルチモーダル入力の保護、生成品質との非識別性のバランス、プライバシー保護の透明性確保など、オープンな課題の概要をまとめて結論付けます。
論文 参考訳(メタデータ) (2025-06-30T08:08:15Z) - Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - Do LLMs exhibit demographic parity in responses to queries about Human Rights? [4.186018120368565]
ヘッジ(hedging)と非確認(non-affirmation)とは、曖昧さや特定の言明に対する明確な支持の欠如を表す行動である。
我々は、異なる国家または社会的アイデンティティの文脈において、人権に関する新しいプロンプトを設計する。
ヘッジや非確認行動をキャプチャするためのメトリクスを開発します。
すべてのモデルが、異なるアイデンティティグループ間での人権をどう評価するかという点において、人口統計学上の相違があることがわかった。
論文 参考訳(メタデータ) (2025-02-26T15:19:35Z) - Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。
ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。
説明は正しい応答と誤応答の両方に依存することが判明した。
情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文 参考訳(メタデータ) (2025-02-12T16:35:41Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Can Querying for Bias Leak Protected Attributes? Achieving Privacy With
Smooth Sensitivity [14.564919048514897]
既存の規制は、モデル開発者が保護された属性にアクセスすることを禁止している。
公正度測定値を求めるだけで、モデルの開発者に対する個人の保護された属性が漏洩する可能性があることを示す。
本稿では,雑音をバイアスクエリのスムーズな感度に調整することで,差分プライバシーを実現する新しい手法であるAttribute-Concealを提案する。
論文 参考訳(メタデータ) (2022-11-03T20:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。