論文の概要: Ghost Vectors: Soft-Deleted Embeddings Remain Reconstructible in HNSW Vector Databases
- arxiv url: http://arxiv.org/abs/2606.18497v1
- Date: Tue, 16 Jun 2026 21:15:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.902484
- Title: Ghost Vectors: Soft-Deleted Embeddings Remain Reconstructible in HNSW Vector Databases
- Title(参考訳): ゴーストベクター:HNSWベクターデータベースで再構築可能なソフト削除埋め込み
- Authors: Chandranil Chakraborttii, Jackeline García Alvarado, Sitora Abdulofizova, Shivanshu Dwivedi,
- Abstract要約: Retrieval-augmented Generation (RAG)により、大規模言語モデルでは、実際のドメイン固有の応答のために、外部およびプライベートコーパスにアクセスすることができる。
RAGパイプラインは、効率的な類似性探索のために階層的ナビゲート可能な小世界(HNSW)ベクトルデータベースを使用する。
ユーザがデータ削除を要求するとき、システムは通常、削除されたレコードのみをマークし、ディスクへの埋め込みは物理的に変化しない。
この作業はEpoch Key Rotationを導入し、ベクターを暗号化し、削除時にキーを破棄する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) allows large language models to access external and private corpora for factual, domain-specific responses. Modern RAG pipelines use hierarchical navigable small world (HNSW) vector databases for efficient similarity search. When a user requests data deletion, the systems typically only mark the record as deleted, leaving the embedding on disk physically unchanged. This soft-delete operation raises compliance concerns under data-erasure and retention requirements such as GDPR Article 17 and HIPAA. Analysis on three HNSW implementations confirms that deleted vectors remain physically recoverable by accessing the raw index files at the storage layer, bypassing API access. Using the Vec2Text inversion model without domain-specific fine-tuning, we show this vulnerability on multiple real-world datasets and data modalities. On Wikipedia biographical living persons dataset (BLP), we successfully recover 25.5% of exact person names and 46.4% of geographic locations (ROUGE-L 0.185). Recovery reaches 100% for both patient age and gender markers (ROUGE-L 0.290) on highly structured, sensitive data (NIH Synthea dataset). On soft-deleted image embeddings, we show 100% tissue classification on histopathology patches (p=1.02e-07) and top-1 identity recovery reaches 99% on facial embeddings (p<0.01). This work introduces Epoch Key Rotation, which encrypts vectors and discards the key upon deletion. Epoch key rotation reduces observed PII recovery to 0% and completes in 2.5 ms for 500 deleted vectors (approximately 0.005 ms/record). Additionally, it generates an ECDSA-signed cryptographic proof as an auditable record of the deletion event.
- Abstract(参考訳): Retrieval-augmented Generation (RAG)により、大規模言語モデルでは、実際のドメイン固有の応答のために、外部およびプライベートコーパスにアクセスすることができる。
現代のRAGパイプラインは、効率的な類似性探索のために階層的ナビゲート可能な小世界(HNSW)ベクトルデータベースを使用する。
ユーザがデータ削除を要求するとき、システムは通常、削除されたレコードのみをマークし、ディスクへの埋め込みは物理的に変化しない。
このソフト削除操作は、GDPR第17条やHIPAAなどのデータ消去・保持要件下でのコンプライアンス上の懸念を高める。
3つのHNSW実装の分析により、削除されたベクターは、ストレージ層の生のインデックスファイルにアクセスし、APIアクセスをバイパスすることで物理的に回復可能であることを確認した。
ドメイン固有の微調整を伴わないVec2Textインバージョンモデルを用いて、この脆弱性を複数の実世界のデータセットとデータモダリティに示す。
ウィキペディアの伝記的人物データセット(BLP)では、正確な人物名25.5%と46.4%の地理的位置(ROUGE-L 0.185)の回復に成功した。
患者の年齢と性別のマーカー(ROUGE-L 0.290)は、高度に構造化され、機密性の高いデータ(NIH Synthea データセット)で100%回復する。
軟弱画像埋め込みでは, 病理組織学的パッチ (p=1.02e-07) で100%の組織分類がみられ, 顔面埋め込みでは99%に達する(p<0.01。
この作業はEpoch Key Rotationを導入し、ベクターを暗号化し、削除時にキーを破棄する。
エポック鍵回転は観測されたPIIの回復を0%に減少させ、500個の削除ベクトルに対して2.5msで完了させる(約0.005ms/record)。
さらに、削除イベントの監査可能な記録として、ECDSAに署名された暗号証明を生成する。
関連論文リスト
- Now You (Still) See Me: Detecting Evasive Steganographic Payloads in LLMs [52.149036302760386]
大規模な言語モデルは、プロンプトによって引き起こされるシークレットを、流動的で良心的な出力にエンコードするように微調整することができる。
近年の研究では、内部の活性化から秘密を回収する線形プローブによる検出を提案する。
この防御は体系的に回避できるが,対象とするデータレベルの介入によって検出性が回復可能であることを示す。
論文 参考訳(メタデータ) (2026-06-08T12:27:11Z) - Retrieval-Based Multi-Label Legal Annotation: Extensible, Data-Efficient and Hallucination-Free [3.5784933879188796]
パラメトリックエンコーダは通常、ラベルセットの変更時にタスク固有のトレーニングと再トレーニングを必要とする。
生成可能な大規模言語モデルは、ラベル空間が大きくなるにつれてコストがかかり、劣化する。
我々は,文書とラベル記述を凍結検索モデルに埋め込み,k-アネレスト近傍の埋め込み空間でラベルを予測する。
論文 参考訳(メタデータ) (2026-05-16T02:40:01Z) - VectorSmuggle: Steganographic Exfiltration in Embedding Stores and a Cryptographic Provenance Defense [0.0]
現代の検索拡張生成システム(RAG)は、センシティブなコンテンツを高次元の埋め込みに変換し、それらをベクトルデータベースに格納し、結果の数値的アーティファクトを不透明なものとして扱う。
これはステガノグラフィー・エクスプロイト・アタックのクラスを開放することを示している。
入力パイプラインへの書き込みアクセスを持つアタッカーは、埋め込み内にペイロードデータを隠蔽することができる。
論文 参考訳(メタデータ) (2026-05-13T16:44:20Z) - How Far Is Document Parsing from Solved? PureDocBench: A Source-TraceableBenchmark across Clean, Degraded, and Real-World Settings [56.70440596502351]
昨年は20以上のオープンドキュメントパースモデルが見られたが、ベンチマークはほぼOmniDocBenchにのみ依存している。
HTML/CSSのドキュメントイメージをレンダリングするベンチマークであるPureDocBenchは、10のドメイン、66ページ、1,475ページをカバーしています。
論文 参考訳(メタデータ) (2026-05-08T09:30:31Z) - Towards Realistic Open-Vocabulary Remote Sensing Segmentation: Benchmark and Baseline [52.65099689153431]
オープンボキャブラリリモートセンシングイメージセグメンテーション(OVRSIS)は、データセットの断片化、トレーニングの多様性の制限、評価ベンチマークの欠如などにより、まだ探索されていない。
我々はOVRSISの大規模かつアプリケーション指向のベンチマークである textitOVRSISBenchV2 を提案する。
以上の結果から,リアルなベンチマーク設計の重要性と,OVRSISの摂動型転送の有効性が示唆された。
論文 参考訳(メタデータ) (2026-04-17T02:49:46Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - DAGER: Exact Gradient Inversion for Large Language Models [10.998375857698496]
フェデレーション学習は、複数のクライアントからローカルに計算された勾配を集約することで機能する。
これまでの研究では、いわゆるグラディエント・インバージョン・アタックを使用して、データをサーバによって実際に回収できることが示されていた。
入力テキストのバッチ全体を正確に復元する最初のアルゴリズムであるDAGERを提案する。
論文 参考訳(メタデータ) (2024-05-24T14:14:24Z) - Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems [22.142588104314175]
Retrieval-In-Context RAG Language Models (LMs) におけるデータストアリークのリスクについて検討する。
敵はLMの命令追従機能を利用してデータストアからテキストデータを簡単に抽出できることを示す。
ランダムに選択された25個のGPTに対して、100%の成功率でデータストアリークを引き起こす攻撃を設計する。
論文 参考訳(メタデータ) (2024-02-27T19:08:05Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。