論文の概要: Semantic Robustness Certification for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.18839v1
- Date: Wed, 17 Jun 2026 09:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.082494
- Title: Semantic Robustness Certification for Vision-Language Models
- Title(参考訳): 視覚言語モデルのための意味ロバスト性証明
- Authors: Peiyu Yang, Paul Montague, Feng Liu, Andrew C. Cullen, Amardeep Kaur, Christopher Leckie, Sarah M. Erfani,
- Abstract要約: ロバストネス認証は、モデルが入力に変換を適用すると、予測が変わるかどうかを決定する。
本研究は,意味レベルの変換の下でVLMの堅牢性を証明できる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 23.329728009549388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are now widely used in downstream tasks. However, real-world applications often expose VLMs to distribution shifts induced by semantic variation (e.g., shape, size, and style). Robustness certification determines if a model's prediction changes when transformations are applied to its input. While most certification frameworks study geometric or pixel-level transformations over inputs, this work proposes a novel framework that enables certifying VLM robustness under semantic-level transformations. Leveraging the open-vocabulary capability of VLMs, we use text prompts as semantic proxies to construct transformations parameterized by an extent that controls the degree of semantic variation. By characterizing the VLM decision boundary in closed form, our framework quantitatively certifies extent intervals for which the predicted class remains unchanged under the semantic transformation. Our framework is the first to certify VLM robustness under semantic-level variations without requiring additional data for each variation, making it practical to apply. Experiments on both synthetic and real-world data show that our framework enables certifying robustness under diverse semantic variations across scenarios.
- Abstract(参考訳): 視覚言語モデル(VLM)は、現在下流のタスクで広く使われている。
しかしながら、実世界のアプリケーションは、意味的変動(例えば、形、サイズ、スタイル)によって引き起こされる分散シフトにVLMを公開することが多い。
ロバストネス認証は、モデルが入力に変換を適用すると、予測が変わるかどうかを決定する。
ほとんどの認証フレームワークは、入力に対する幾何学的あるいはピクセルレベルの変換を研究しているが、本研究では、意味レベルの変換の下でVLMの堅牢性を証明できる新しいフレームワークを提案する。
VLMのオープン語彙能力を活用して、意味的変動の度合いを制御する程度でパラメータ化された変換を構築するために、意味的プロキシとしてテキストプロンプトを使用する。
VLM決定境界をクローズドな形で特徴付けることにより、予測クラスがセマンティックトランスフォーメーションの下で変化しない範囲間隔を定量的に認定する。
我々のフレームワークは、各バリエーションに付加的なデータを必要とすることなく、意味レベルの変動の下でVLMロバスト性を証明する最初のものである。
合成データと実世界のデータの両方の実験により、シナリオ間の多様なセマンティックなバリエーションの下でロバスト性を証明できることが示されている。
関連論文リスト
- Topology-Aware Layer Pruning for Large Vision-Language Models [21.06771347736129]
LVLM(Large Vision-Language Models)は、計算とメモリのコストを大幅に削減する。
既存のレイヤプルーニングメソッドは、通常、ローカルな類似度メトリクスや静的プロキシ信号に依存する。
LVLMのためのトポロジ対応層プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T14:36:53Z) - Unified modality separation: A vision-language framework for unsupervised domain adaptation [60.8391821117794]
教師なしドメイン適応(Unsupervised domain adapt, UDA)は、ラベル付きソースドメインでトレーニングされたモデルが新しいラベル付きドメインを扱うことを可能にする。
本稿では,モダリティ固有成分とモダリティ不変成分の両方に対応可能な統一モダリティ分離フレームワークを提案する。
提案手法は,9倍の計算効率で最大9%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:51:10Z) - An Empirical Study of Federated Prompt Learning for Vision Language Model [89.2963764404892]
本稿では,言語プロンプト学習(VPT)と視覚プロンプト学習(VLM)の行動的差異を系統的に検討する。
我々は、FPL(Federated Prompt Learning)の堅牢性を評価するために、クライアントスケール、集約戦略、即時長といった様々なFLと迅速な構成の影響を評価する。
論文 参考訳(メタデータ) (2025-05-29T03:09:15Z) - Analyzing Finetuning Representation Shift for Multimodal LLMs Steering [56.710375516257876]
隠れた状態を解釈可能な視覚的概念とテキスト的概念にマッピングすることを提案する。
これにより、オリジナルモデルや微調整モデルからのシフトなど、特定のセマンティックダイナミクスをより効率的に比較することが可能になります。
また,これらの変化を捉えるためにシフトベクトルを用いることを実証する。
論文 参考訳(メタデータ) (2025-01-06T13:37:13Z) - Semantic-Aware Implicit Template Learning via Part Deformation
Consistency [18.63665468429503]
意味論的に妥当な変形を可能にする意味認識型暗黙テンプレート学習フレームワークを提案する。
自己教師付き特徴抽出器からのセマンティクスの事前利用により,新しいセマンティクス対応変形符号を用いた局所条件付けを提案する。
本実験は,様々なタスクにおいて,ベースラインよりも提案手法の方が優れていることを示す。
論文 参考訳(メタデータ) (2023-08-23T05:02:17Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - VarMAE: Pre-training of Variational Masked Autoencoder for
Domain-adaptive Language Understanding [5.1282202633907]
本稿では,ドメイン適応型言語理解のためのトランスフォーマーベース言語モデルであるVarMAEを提案する。
マスク付き自動符号化の目的のもと,トークンのコンテキストをスムーズな潜伏分布に符号化するコンテキスト不確実性学習モジュールを設計する。
科学および金融分野におけるNLUタスクの実験は、VarMAEが限られたリソースを持つ新しいドメインに効率的に適応できることを実証している。
論文 参考訳(メタデータ) (2022-11-01T12:51:51Z) - Latent Covariate Shift: Unlocking Partial Identifiability for Multi-Source Domain Adaptation [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - GSmooth: Certified Robustness against Semantic Transformations via
Generalized Randomized Smoothing [40.38555458216436]
一般的な意味変換に対する堅牢性を証明するための統一的な理論的枠組みを提案する。
GSmoothフレームワークでは,画像と画像の代理ネットワークを用いて複雑な変換を近似するスケーラブルなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-09T07:12:17Z) - Point Cloud Learning with Transformer [2.3204178451683264]
我々は,マルチレベルマルチスケールポイントトランスフォーマ(mlmspt)と呼ばれる新しいフレームワークを提案する。
具体的には、点ピラミッド変換器を用いて、多様な分解能やスケールを持つ特徴をモデル化する。
マルチレベルトランスモジュールは、各スケールの異なるレベルからコンテキスト情報を集約し、それらの相互作用を強化するように設計されている。
論文 参考訳(メタデータ) (2021-04-28T08:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。