論文の概要: Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks
- arxiv url: http://arxiv.org/abs/2606.18710v1
- Date: Wed, 17 Jun 2026 05:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.02219
- Title: Image Prompt Reconstruction Attacks on Distributed MLLM Inference Frameworks
- Title(参考訳): 分散MLLM推論フレームワークによる画像プロンプト再構成攻撃
- Authors: Xinjian Luo, Hongyan Chang, Jianxin Wei, Yuncheng Wu, Xiaofeng Gao, Meikang Qiu, Ting Yu, Xue Liu,
- Abstract要約: 分散MLLMフレームワークにおける中間埋め込みによる画像入力に対するプライバシーリスクについて検討する。
我々は,通常の参加者の現実的な脅威を反映した2つの受動ブラックボックス画像再構成攻撃,MPAAとIEDAを開発した。
その結果,様々な環境下での再現性能は良好であった。
- 参考スコア(独自算出の注目度): 21.9083862179787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed large language model (LLM) inference frameworks connect isolated consumer-grade devices for large-scale model inference, substantially reducing hardware constraints. However, recent studies show that intermediate embeddings transmitted among participants can leak private prompts. As LLMs evolve into multimodal LLMs (MLLMs), this risk extends beyond text: image prompts contain rich visual and semantic information, making their intermediate embeddings highly privacy-sensitive. Yet, image-prompt leakage in distributed MLLM inference remains largely unexplored. In this paper, we investigate privacy risks to input images caused by intermediate embeddings in distributed MLLM frameworks. We first analyze the information flow from image pixels to intermediate representations. Since image and text embeddings are often intertwined across MLLM layers, we design an image embedding extraction algorithm as a prerequisite for reconstruction attacks, achieving 100% extraction accuracy across almost all MLLM layers in our experiments. Building on this, we develop two passive black-box image reconstruction attacks, MPAA and IEDA, reflecting realistic threats from normal participants with limited knowledge and capability. MPAA performs fine-grained pixel-level reconstruction via patch-wise information extraction and assembly, while IEDA performs coarse-grained semantic reconstruction through embedding-guided diffusion generation. We evaluate our attacks on four representative MLLM families: Gemma 3, Phi 4 Multimodal, Qwen 2.5 VL, and Llama 4 Scout. Results show consistently superior reconstruction performance in various settings. We further analyze the effects of MoE architecture, image preprocessing, model size, and text-image dependency on attack performance. To our knowledge, this is the first study of image reconstruction attacks on MLLMs.
- Abstract(参考訳): 分散大言語モデル(LLM)推論フレームワークは、大規模モデル推論のために分離されたコンシューマグレードデバイスを接続し、ハードウェアの制約を大幅に低減する。
しかし、近年の研究では、参加者間で伝達される中間的な埋め込みがプライベートなプロンプトを漏らす可能性があることが示されている。
LLM がマルチモーダル LLM (MLLM) へと進化するにつれて、このリスクはテキストを超えて拡大する。
しかし、分散MLLM推論における画像のプロンプトリークはほとんど探索されていない。
本稿では,分散MLLMフレームワークにおける中間埋め込みによる画像入力のプライバシーリスクについて検討する。
まず,画像画素から中間表現への情報フローを解析する。
画像とテキストの埋め込みはMLLM層にまたがることが多いため、画像埋め込み抽出アルゴリズムを再構成攻撃の前提条件として設計し、ほぼ全てのMLLM層に対して100%の抽出精度を実現する。
そこで我々は,MPAAとIEDAという2つの受動的ブラックボックス画像再構成攻撃を開発し,限られた知識と能力を持つ一般参加者の現実的な脅威を反映した。
MPAAはパッチワイズ情報抽出と組立てによる細粒度画素レベルの再構築を行い、IEDAは埋め込み誘導拡散生成による粗粒度セマンティック再構築を行う。
我々はGemma 3、Phi 4 Multimodal、Qwen 2.5 VL、Llama 4 Scoutの4つのMLLMファミリーに対する攻撃を評価した。
その結果,様々な環境下での再現性能は良好であった。
さらに,MoEアーキテクチャ,画像前処理,モデルサイズ,テキストイメージ依存性が攻撃性能に与える影響を解析する。
我々の知る限り、これはMLLMに対する画像再構成攻撃の最初の研究である。
関連論文リスト
- Enhancing Single-Image Facial Demorphing using Multimodal Large Language Models [8.088040801883015]
顔認証システムは、複数のアイデンティティにマッチするように合成画像が作成される、モーフィング攻撃に対してますます脆弱になっている。
本稿では,マルチモーダル大規模言語モデルを活用した,参照不要な顔変形フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T05:40:32Z) - Leave My Images Alone: Preventing Multi-Modal Large Language Models from Analyzing Images via Visual Prompt Injection [37.48710514852417]
マルチモーダル大言語モデル(MLLM)は,インターネット規模の画像データを解析するための強力なツールとして登場した。
特に、オープンウェイトMLLMは、大規模な個人画像から機密情報を抽出するために誤用されることがある。
本稿では,画像共有前を積極的に保護するユーザ側手法であるImageProtectorを提案する。
論文 参考訳(メタデータ) (2026-04-10T06:37:46Z) - IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation [44.89730606641666]
IBISAgentはビジョン中心の多段階意思決定プロセスとしてセグメンテーションを再構築する。
IBISAgentは、クローズドソースとオープンソース両方のSOTAメソッドを一貫して上回っている。
すべてのデータセット、コード、トレーニングされたモデルが公開されます。
論文 参考訳(メタデータ) (2026-01-06T14:37:50Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。
提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文 参考訳(メタデータ) (2025-10-23T17:58:26Z) - Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM Context Fusion [70.9767518332692]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - LLMRA: Multi-modal Large Language Model based Restoration Assistant [25.534022968675337]
本稿では,このギャップに対処するシンプルなMLLMベースの画像復元フレームワークを提案する。
我々はMLLMの印象的な機能を利用して、ユニバーサル画像復元のための劣化情報を得る。
本手法は,MLLMからの画像劣化に先立ち,入力された低品質画像と復元された高画質画像の低レベル属性記述を同時に提供する。
論文 参考訳(メタデータ) (2024-01-21T04:50:19Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。