論文の概要: RedactionBench
- arxiv url: http://arxiv.org/abs/2606.18782v1
- Date: Wed, 17 Jun 2026 07:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.051158
- Title: RedactionBench
- Title(参考訳): RedactionBench
- Authors: Sean Brynjólfsson, Shashvat Jayakrishnan, Esha Sali, Diptanshu Purwar, Madhav Aggarwal,
- Abstract要約: 個人識別可能な情報の再作用を必要とするセンシティブなドメインに対して、大規模言語モデルがますます適用される(PII)
RedactionBenchは11ドメインにわたる200のさまざまなドキュメントからなるベンチマークである。
Rスコア(R-Score)は、意味論的に類似した反応を等しく扱う新しい指標である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models are increasingly applied to sensitive domains that require redaction of personally identifiable information (PII). While redacting PII is a data cleaning prerequisite, existing benchmarks conflate extraction mechanics with privacy semantics. A public phone number is not equivalent to a phone number in a medical record. Whether information constitutes a violation depends heavily on who holds it, why, and in what context, fundamentally differentiating redaction from simple entity recognition. Grounded in contextual integrity, we introduce RedactionBench, a manually annotated benchmark comprising 200 diverse documents across 11 domains, mostly seeded from real-world sources. We also introduce R-Score, a novel character-level metric that treats semantically similar redactions equally and nullifies shallow formatting choices, such as varying masking styles for phone numbers. Evaluations across Named Entity Recognition models, entity extraction Small Language Models, and frontier models equipped with agentic tools demonstrate that contextual redaction remains an unsolved problem. A human evaluation with over 80 users on RedactionBench reveals a stark dichotomy in privacy perceptions. Annotators show consensus with target labels for mandatory redactions (89.4 percent) and safe text preservations (94.1 percent), but fail to agree on contextual redactions (47.7 percent). This variance demonstrates the subjective nature of contextual privacy and motivates R-Score, which decouples contextual ambiguity from strict precision. We compare 35 models across families and report their performance in redacting PII. Finally, we release RedactionBench to establish a baseline for future privacy-preserving systems, hoping to inspire efficient model design and standardized evaluations.
- Abstract(参考訳): 大規模言語モデルは、個人識別可能な情報の再作用を必要とするセンシティブなドメイン(PII)にますます適用されている。
PIIの再実行はデータクリーニングの前提条件であるが、既存のベンチマークでは、抽出メカニズムとプライバシセマンティクスを記述している。
公衆電話番号は、医療記録における電話番号と等価ではない。
情報が違反を構成するかどうかは、誰がそれを保持しているか、なぜ、どのような文脈で、単純な実体認識と根本的に区別するかに大きく依存する。
コンテキスト整合性に基づくRedactionBenchは、11ドメインにわたる200のさまざまなドキュメントからなる、手動で注釈付きベンチマークである。
また、R-Scoreは、意味論的に類似したリアクションを等しく扱い、電話番号のマスキングスタイルの変化など、浅いフォーマット選択を無効化する新しい文字レベルメトリックである。
名前付きエンティティ認識モデル、エンティティ抽出小言語モデル、エージェントツールを備えたフロンティアモデルによる評価は、コンテキストのリアクションが未解決の問題のままであることを示す。
RedactionBenchの80人以上のユーザーによる人間による評価では、プライバシーに対する認識が二分される。
アノテーションは、強制的再アクション (89.4%) と安全なテキスト保存 (94.1%) のためにターゲットラベルとの合意を示すが、文脈的再アクション (47.7%) には同意しなかった。
この分散は、文脈的プライバシーの主観的な性質を示し、文脈的曖昧さを厳密な精度から切り離すRスコアを動機付けている。
我々は,家族間で35モデルを比較し,PIIを再現する際の性能を報告する。
最後に、RedactionBenchをリリースし、効率的なモデル設計と標準化された評価を刺激したいと考えている将来のプライバシ保護システムのベースラインを確立する。
関連論文リスト
- RedacBench: Can AI Erase Your Secrets? [48.280759014096354]
ドメインと戦略間のポリシー条件付きリアクションを評価するベンチマークであるRedacBenchを紹介します。
RedacBenchは、オリジナルのセマンティクスを保持しながらポリシー違反情報を選択的に除去するモデルの能力を測定する。
我々は8,053の注釈付き命題を用いて、各テキスト中のすべての推測可能な情報をキャプチャする性能を定量化する。
論文 参考訳(メタデータ) (2026-03-02T06:29:49Z) - The Medium Is Not the Message: Deconfounding Document Embeddings via Linear Concept Erasure [98.71456610527598]
埋め込みベースの類似度メトリクスは、テキストのソースや言語のような刺激的な属性に影響される可能性がある。
本稿では,エンコーダ表現から観測された共同創設者に関する情報を除去するデバイアスアルゴリズムにより,これらのバイアスを最小の計算コストで大幅に低減することを示す。
論文 参考訳(メタデータ) (2025-07-01T23:17:12Z) - ExpShield: Safeguarding Web Text from Unauthorized Crawling and Language Modeling Exploitation [17.71790411163849]
そこで本研究では,非知覚的テキスト摂動によるサンプル固有の記憶を緩和する,能動的自己防衛機構であるExpShiledを提案する。
当社のアプローチでは、オリジナルの可読性を維持しながら外部とのコラボレーションは必要ありません。
プライバシーのバックドアがあっても、MIA(Community Inference Attack)のAUCは0.95から0.55に低下し、インスタンスエクスプロイトは0に近づいた。
論文 参考訳(メタデータ) (2024-12-30T17:52:02Z) - Truthful Text Sanitization Guided by Inference Attacks [3.3802914883339557]
そこで本研究では,原文のセマンティックな内容をサブセットとした一般化に基づく新しいテキスト衛生手法を提案する。
このアプローチは命令チューニングされた大規模言語モデル(LLM)の使用に依存しており、2つの段階に分けられる。
Text Anonymization Benchmarkの結果、Mistral 7B Instructで実装された提案手法は、実用性の向上につながることが示された。
論文 参考訳(メタデータ) (2024-12-17T14:07:01Z) - IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。
補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。
我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文 参考訳(メタデータ) (2024-06-28T04:14:35Z) - RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。