論文の概要: Vision Language Model Helps Private Information De-Identification in Vision Data
- arxiv url: http://arxiv.org/abs/2606.09132v1
- Date: Mon, 08 Jun 2026 07:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.800597
- Title: Vision Language Model Helps Private Information De-Identification in Vision Data
- Title(参考訳): Vision Language Modelは、視覚データにおける個人情報の識別を支援する
- Authors: Tiejin Chen, Pingzhi Li, Kaixiong Zhou, Tianlong Chen, Hua Wei,
- Abstract要約: VisShieldは、ビジュアル言語モデル(VLM)のプライバシー意識を高めるために設計されたエンドツーエンドフレームワークである。
我々のフレームワークは2つの重要なコンポーネントで構成されている。
我々のアプローチは、VLMがプライバシーに敏感なテキストを認識し、検出されたエンティティに対して正確なバウンディングボックスを出力することを保証する。
- 参考スコア(独自算出の注目度): 55.425628316813174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual Language Models (VLMs) have gained significant popularity due to their remarkable ability. While various methods exist to enhance privacy in text-based applications, privacy risks associated with visual inputs remain largely overlooked such as Protected Health Information (PHI) in medical images. To tackle this problem, two key tasks: accurately localizing sensitive text and processing it to ensure privacy protection should be performed. To address this issue, we introduce VisShield (Vision Privacy Shield), an end-to-end framework designed to enhance the privacy awareness of VLMs. Our framework consists of two key components: a specialized instruction-tuning dataset OPTIC (Optical Privacy Text Instruction Collection) and a tailored training methodology. The dataset provides diverse privacy-oriented prompts that guide VLMs to perform targeted Optical Character Recognition (OCR) for precise localization of sensitive text, while the training strategy ensures effective adaptation of VLMs to privacy-preserving tasks. Specifically, our approach ensures that VLMs recognize privacy-sensitive text and output precise bounding boxes for detected entities, allowing for effective masking of sensitive information. Extensive experiments demonstrate that our framework significantly outperforms existing approaches in handling private information, paving the way for privacy-preserving applications in vision-language models. Our dataset and code can be found here.
- Abstract(参考訳): 視覚言語モデル(VLM)は、その顕著な能力によって大きな人気を集めている。
テキストベースのアプリケーションにおけるプライバシーを強化する様々な方法が存在するが、医用画像における保護健康情報(PHI)など、視覚入力に関連するプライバシーリスクはほとんど見過ごされている。
この問題に対処するためには、機密テキストを正確にローカライズし、プライバシー保護を行うために処理する2つの重要なタスクがある。
この問題に対処するために、VLMのプライバシー意識を高めるために設計されたエンドツーエンドフレームワークであるVisShield(Vision Privacy Shield)を紹介する。
フレームワークは2つの重要なコンポーネントで構成されている。命令チューニングデータセットOPTIC(Optical Privacy Text Instruction Collection)と、カスタマイズされたトレーニング方法論である。
このデータセットは、プライバシー指向の多様なプロンプトを提供し、機密テキストの正確なローカライゼーションのためにターゲットの光学文字認識(OCR)を実行するようにVLMを誘導する一方で、トレーニング戦略は、プライバシー保護タスクへのVLMの効果的な適応を保証する。
具体的には、VLMがプライバシーに敏感なテキストを認識し、検出されたエンティティの正確なバウンディングボックスを出力し、センシティブな情報の効果的なマスキングを可能にする。
大規模な実験により、我々のフレームワークは、視覚言語モデルにおけるプライバシ保護アプリケーションへの道を切り開いて、プライベート情報を扱う既存のアプローチを著しく上回ります。
データセットとコードはここにある。
関連論文リスト
- Assessing Privacy Preservation and Utility in Online Vision-Language Models [15.74713639305756]
画像は個人識別情報に関連する関係を含む(PII)
画像からの文脈関係の抽出が,PIIの直接的(明示的)あるいは間接的(単純な)露光につながるかを検討する。
視覚言語モデル(VLM)に基づくアプリケーションにおいて,画像の意図した有用性を保ちながらプライバシを保護する手法を提案する。
論文 参考訳(メタデータ) (2026-04-06T20:44:46Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - The Phantom Menace: Unmasking Privacy Leakages in Vision-Language Models [31.166994121531232]
VLM(Vision-Language Models)は視覚とテキストの理解を統合し、様々なタスクに適している。
これらの機能は、Webからクロールされた大量の未処理データのトレーニングに基づいて構築される。
本稿では,これらの脆弱性が存在するかどうかを,ID漏洩に着目して評価する。
論文 参考訳(メタデータ) (2024-08-02T12:36:13Z) - Little Data, Big Impact: Privacy-Aware Visual Language Models via Minimal Tuning [16.272314073324626]
我々は、最先端のビジュアル・アズ・ランゲージ・モデル(VLM)を評価し、視覚的プライバシの理解における限界を特定する。
これを解決するために,PrivBench-HとPrivTuneという2つのコンパクトで高品質なベンチマークを導入する。
我々は、GPT-4を越えながら、他のタスクの強い性能を維持しながら、全てのベンチマークで実質的なゲインを得る。
論文 参考訳(メタデータ) (2024-05-27T17:59:25Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Diff-Privacy: Diffusion-based Face Privacy Protection [58.1021066224765]
本稿では,Diff-Privacyと呼ばれる拡散モデルに基づく顔のプライバシー保護手法を提案する。
具体的には、提案したマルチスケール画像インバージョンモジュール(MSI)をトレーニングし、元の画像のSDMフォーマット条件付き埋め込みのセットを得る。
本研究は,条件付き埋め込みに基づいて,組込みスケジューリング戦略を設計し,デノナイズプロセス中に異なるエネルギー関数を構築し,匿名化と視覚的アイデンティティ情報隠蔽を実現する。
論文 参考訳(メタデータ) (2023-09-11T09:26:07Z) - Privacy-Adaptive BERT for Natural Language Understanding [20.821155542969947]
BERTを用いたローカルプライバシ設定下でのNLUモデルの有効性向上について検討する。
本稿では,プライバシ対応lmプリトレーニング手法を提案し,民営化テキスト入力におけるモデル性能を大幅に向上できることを実証する。
論文 参考訳(メタデータ) (2021-04-15T15:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。