論文の概要: Revealing Training Data Exposure in Vision Language Large Models via Parameter Gradients
- arxiv url: http://arxiv.org/abs/2606.24774v1
- Date: Tue, 23 Jun 2026 16:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.073866
- Title: Revealing Training Data Exposure in Vision Language Large Models via Parameter Gradients
- Title(参考訳): パラメータ勾配による視覚言語大モデルにおけるトレーニングデータ公開の探索
- Authors: Zhihao Zhu, Hongyi Tang, Yi Yang, Ahmed Abbasi,
- Abstract要約: VLLM(Vision-Language Large Models)は、巨大なクロールコーパスで訓練された大規模モデルである。
GradAuditは、内部最適化のダイナミクスを調べる勾配ベースの監査フレームワークである。
これらの勾配シグネチャを解析することにより、GradAuditは強い分離性を実現し、真の画像テキスト関連を検出する。
- 参考スコア(独自算出の注目度): 11.525023337679224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Large Models (VLLMs) trained on massive crawled corpora raise pressing copyright and data-provenance concerns. These concerns are particularly acute in healthcare, where patient medical images paired with clinical reports demand rigorous privacy safeguards. However, existing training data detection methods either fail in cross-modal scenarios or rely on superficial output signals with insufficient discriminative power. We introduce GradAudit, a gradient-based auditing framework that examines internal optimization dynamics rather than treating VLLMs as black boxes. Our approach builds on a key observation: model parameters converge to regions where gradients on training samples become stable and well-aligned, whereas gradients on non-training samples remain noisy and inconsistent. By analyzing these gradient signatures, GradAudit achieves strong separability and detects genuine image-text associations learned during training, not merely individual modality membership. Empirically, across both medical and general-domain datasets, GradAudit substantially outperforms state-of-the-art baselines in both pretraining and fine-tuning VLLMs. In a case study employing copyrighted content, we show that existing training data detection methods not only underestimate the extent of unauthorized data usage, but that this underestimation becomes more pronounced as models become more recent and more advanced.
- Abstract(参考訳): VLLM(Vision-Language Large Models)は、巨大なクロールコーパスで訓練された大規模モデルである。
これらの懸念は、患者の医療画像と臨床報告を合わせると、厳格なプライバシー保護が要求される医療において特に深刻である。
しかし、既存のトレーニングデータ検出方法は、クロスモーダルなシナリオで失敗するか、差別力の不足した表面出力信号に依存している。
我々は,VLLMをブラックボックスとして扱うのではなく,内部最適化のダイナミクスを検証した勾配に基づく監査フレームワークGradAuditを紹介する。
モデルパラメータは、トレーニングサンプルの勾配が安定して整列する領域に収束するのに対して、非トレーニングサンプルの勾配はノイズと矛盾する領域に収束する。
これらの勾配シグネチャを解析することにより、GradAuditは強い分離性を実現し、トレーニング中に学習した真の画像テキスト関連を検出する。
GradAuditは、医学データセットと一般ドメインデータセットの両方で、事前トレーニングと微調整両方のVLLMにおいて、最先端のベースラインを大幅に上回っている。
著作権のあるコンテンツを用いたケーススタディでは、既存のトレーニングデータ検出手法は、不正なデータ使用の程度を過小評価するだけでなく、モデルがより最新化し、より高度なものになるにつれて、この過小評価がより顕著になることを示す。
関連論文リスト
- Quality-Guided Semi-Supervised Learning for Medical Image Segmentation [12.64743678301535]
正確な医用画像セグメンテーションモデルの訓練には、大量の高密度の注釈付きデータが必要である。
半教師付き学習(SSL)は、豊富なラベル付きデータと限定ラベル付きデータの両方から学習することでこれを緩和する。
画像とマスクのペアからセグメンテーション品質を推定するために,専用ネットワークをトレーニングする品質誘導型SSLフレームワークを提案する。
論文 参考訳(メタデータ) (2026-06-01T06:15:07Z) - Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - Delving Aleatoric Uncertainty in Medical Image Segmentation via Vision Foundation Models [56.29123284262618]
本研究は,視覚基盤モデルの普遍的表現能力を生かして固有データ不確実性を推定することを提案する。
モデルのデコード表現の特徴の多様性を分析し,その特異値エネルギーを定量化し,各クラスに対する意味知覚尺度を定義する。
この基礎に基づいて,本研究は,(1)潜在的にノイズの多いサンプルを排除し,モデル学習品質を向上させるためのアレータリック不確実性認識データフィルタリング機構,(2)意味認識尺度に基づくトレーニング中にクラス固有の損失重みを適応的に調整する動的不確実性認識最適化戦略,およびトレーニング安定性を向上させるラベル認知機構の2つの不確実性駆動型アプリケーション戦略を設計する。
論文 参考訳(メタデータ) (2026-04-13T03:59:54Z) - The Gait Signature of Frailty: Transfer Learning based Deep Gait Models for Scalable Frailty Assessment [22.972032402190873]
臨床的に現実的な設定で収集したシルエットベースの脆弱な歩行データセットを公開して紹介する。
我々は,限られたデータ条件下で,事前学習した歩行認識モデルが脆弱な分類にどのように適応できるかを評価する。
論文 参考訳(メタデータ) (2026-03-25T15:44:37Z) - From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models [24.38939297043815]
既存の手法は主に微調整前後の確率に基づく統計的特徴や信号に焦点を当てている。
対象サンプルの勾配偏差スコアを探索することにより,事前学習データを識別するGDSを提案する。
GDSは、強いベースライン上でのクロスデータセット転送性を大幅に改善し、最先端の性能を実現している。
論文 参考訳(メタデータ) (2026-03-05T05:21:51Z) - Trustworthy image-to-image translation: evaluating uncertainty calibration in unpaired training scenarios [0.0]
マンモグラフィスクリーニングは乳がんの検出に有効な方法であり、早期診断を容易にする。
ディープニューラルネットワークはいくつかの研究で有効であることが示されているが、その傾向は一般化と誤診のリスクをかなり残している。
汎用性を向上させるために、未ペア型ニューラルスタイル転送モデルに基づくデータ拡張スキームが提案されている。
3つのオープンアクセスマンモグラフィーデータセットと1つの非医療画像データセットから解析した画像パッチを用いて、それらの性能を評価する。
論文 参考訳(メタデータ) (2025-01-29T11:09:50Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Differentially private federated deep learning for multi-site medical
image segmentation [56.30543374146002]
フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。
近年のイニシアチブでは、FLで訓練されたセグメンテーションモデルが、局所的に訓練されたモデルと同様のパフォーマンスを達成できることが示されている。
しかし、FLは完全なプライバシ保護技術ではなく、プライバシ中心の攻撃は秘密の患者データを開示することができる。
論文 参考訳(メタデータ) (2021-07-06T12:57:32Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。