論文の概要: Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades
- arxiv url: http://arxiv.org/abs/2606.15308v1
- Date: Sat, 13 Jun 2026 13:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.268559
- Title: Forced Deferral: Manipulating Routing Decisions in Multimodal LLM Cascades
- Title(参考訳): 強制デフェラル:マルチモーダルLLMカスケードにおけるルーティング決定の操作
- Authors: Zhongye Liu, Yaopei Zeng, Yurui Chang, Lu Lin,
- Abstract要約: 我々は、弱いモデルの信頼性を低下させ、カスケードが強いモデルにクエリをルーティングする、敵対的なイメージアタックであるForsd Deferral Attack(FDA)を紹介した。
FDAは、画像摂動と即時注入ベースラインを上回りながら、強いモデルルーティングを継続的に増加させる。
- 参考スコア(独自算出の注目度): 6.268471570817358
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While multimodal large language models (MLLMs) have shown strong visual reasoning abilities, serving a large model for every query is computationally expensive. MLLM cascades mitigate this cost by first querying a weak but cheaper model and deferring to a strong model when the weak model's output is unconfident. However, since the weak model's confidence directly controls compute allocation, these systems expose a new attack surface: an adversary can manipulate confidence so that their queries are consistently deferred to the strong model. Motivated by this vulnerability, we introduce the Forced Deferral Attack (FDA), an adversarial image attack that lowers the weak model's confidence and causes cascades to route queries to the strong model. FDA learns a universal border trigger by optimizing a temperature-flattened objective. This objective pushes the weak model's token distribution on triggered inputs toward less concentrated targets constructed from its clean responses. Across datasets, model families, and deferral metrics, FDA consistently increases strong-model routing while outperforming image-perturbation and prompt-injection baselines. These results show that MLLM cascades are vulnerable to attacks that manipulate compute allocation, forcing unintended strong-model usage without directly targeting answer correctness.
- Abstract(参考訳): マルチモーダルな大言語モデル (MLLM) は強力な視覚的推論能力を示してきたが、クエリ毎に大きなモデルを提供するには計算コストがかかる。
MLLMカスケードは、まず弱いが安価なモデルに問い合わせ、弱いモデルの出力が信頼できないときに強いモデルに遅延することで、このコストを軽減する。
しかし、弱いモデルの信頼性が計算割り当てを直接制御するため、これらのシステムは新たな攻撃面を公開する。
この脆弱性に動機づけられた私たちは、弱いモデルの信頼性を低下させ、カスケードがクエリを強いモデルにルーティングする敵対的なイメージアタックである、強制決定攻撃(FDA)を導入しました。
FDAは温度平らな目標を最適化することで、普遍的な境界トリガーを学習する。
この目的は、引き起こされた入力に対する弱いモデルのトークン分布を、クリーンな応答から構築されたより集中度の低いターゲットにプッシュする。
データセット、モデルファミリ、deferralメトリクス全体にわたって、FDAは、画像摂動およびプロンプト注入ベースラインを上回っながら、強いモデルルーティングを一貫して増加させます。
これらの結果から,MLLMカスケードは計算割り当てを操作する攻撃に対して脆弱であり,解答の正当性を直接的に狙うことなく,意図しない強モデルの使用を強制することがわかった。
関連論文リスト
- Towards Evaluting Fake Reasoning Bias in Language Models [47.482898076525494]
論理に欠陥がある場合でも、モデルが推論の表面構造を好むことを示す。
我々は、Fake Reasoning Bias(FRB)を体系的に調査するベンチマークTheATERを紹介する。
我々は、主観的DPOと実データの両方で17の高度な大言語モデル(LRM)を評価する。
論文 参考訳(メタデータ) (2025-07-18T09:06:10Z) - One Token to Fool LLM-as-a-Judge [52.45386385722788]
大規模言語モデル(LLM)は、自動化された審査員としてますます信頼され、評価を支援し、他のモデルを訓練するための報酬信号を提供する。
生成的報酬モデルは、ハッキングに対して体系的に影響を受けやすい。
論文 参考訳(メタデータ) (2025-07-11T17:55:22Z) - Graph Representation-based Model Poisoning on Federated Large Language Models [3.5233863453805143]
フェデレートされた大規模言語モデル(FedLLMs)は、データのプライバシを保持しながら、無線ネットワーク内で強力な生成機能を実現する。
本稿では,FedLLMのモデル中毒技術と既存の防御機構の最近の進歩について概説する。
さらに、グラフ表現に基づくモデル中毒(GRMP)は、良質なクライアント勾配間の高次相関を利用して、悪意ある更新を正当なものと区別できないものにする新興攻撃パラダイムである。
論文 参考訳(メタデータ) (2025-07-02T13:20:52Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - AutoRAN: Automated Hijacking of Safety Reasoning in Large Reasoning Models [31.083152169027546]
AutoRANは、大規模な推論モデルで内部安全推論のハイジャックを自動化する最初のフレームワークである。
GPT-o3/o4-mini や Gemini-2.5-Flash など,最先端の LRM に対する AutoRAN の評価を行った。
その結果、AutoRANは1回か数回で100%の成功率に近づくことができた。
論文 参考訳(メタデータ) (2025-05-16T04:37:12Z) - Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。
本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-04-20T09:07:10Z) - Merger-as-a-Stealer: Stealing Targeted PII from Aligned LLMs with Model Merging [49.270050440553575]
この攻撃を実現するための2段階フレームワークである textttMerger-as-a-Stealer を提案する。
まず、攻撃者は悪意のあるモデルを微調整し、PII関連のクエリに応答するよう強制する。
次に、攻撃者は直接PII関連クエリをマージしたモデルに入力し、ターゲットPIIを抽出する。
論文 参考訳(メタデータ) (2025-02-22T05:34:53Z) - Towards Adversarially Robust Deep Metric Learning [0.8702432681310401]
ディープニューラルネットワークは敵の攻撃を受けやすいため、敵の例によって簡単に騙される可能性がある。
既存の作業は、DMLモデルの堅牢性を徹底的に検査することができない。
我々は,アンサンブル学習と対人訓練を利用する新しい防衛法である「アンサンブル・アディバーショナル・トレーニング(EAT)」を提案する。
論文 参考訳(メタデータ) (2025-01-02T03:15:25Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Data-Free Hard-Label Robustness Stealing Attack [67.41281050467889]
本稿では,Data-Free Hard-Label Robustness Stealing(DFHL-RS)攻撃について紹介する。
ターゲットモデルのハードラベルをクエリするだけで、モデル精度とロバスト性の両方を盗むことができる。
本手法は,AutoAttackに対して77.86%,頑健な39.51%の精度を実現する。
論文 参考訳(メタデータ) (2023-12-10T16:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。