論文の概要: FloatDoor: Platform-Triggered Backdoors in LLMs
- arxiv url: http://arxiv.org/abs/2606.19535v1
- Date: Wed, 17 Jun 2026 19:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.504248
- Title: FloatDoor: Platform-Triggered Backdoors in LLMs
- Title(参考訳): FloatDoor:LDMのプラットフォームトリガーバックドア
- Authors: Nils Loose, Jonas Sander, Felix Mächtle, Thomas Eisenbarth,
- Abstract要約: 大規模言語モデル(LLM)は、ソフトウェア工学のようなセンシティブな設定に徐々にデプロイされている。
最近の研究は、同じモデルがデプロイプラットフォームによって測定可能な出力を生成できることを示した。
我々はFloatDoorを紹介した。FloatDoorは、最初のインプット非依存のプラットフォームトリガーバックドア攻撃であり、生成LDMに対する攻撃である。
- 参考スコア(独自算出の注目度): 4.599744479469667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly deployed in sensitive settings such as software engineering, where their outputs directly shape downstream artifacts. Recent work has shown that an identical model can produce measurably different outputs depending on the deployment platform, a consequence of non-associative floating-point arithmetic and divergent kernel implementations. We study the security implications of this platform-dependent variability and uncover a novel attack surface on LLM deployments. We introduce FloatDoor, the first input-independent, platform-triggered backdoor attack against generative LLMs. The compromised model exhibits adversary-chosen behavior when served on a target platform and is otherwise benign. FloatDoor is realized through two lightweight LoRA adapters, one that amplifies inter-platform numerical divergence and one that binds the resulting platform signature to a malicious downstream task, while leaving aggregate model utility largely intact. FloatDoor exploits a pronounced time-of-check, time-of-use gap between model auditing and serving. We demonstrate FloatDoor on Qwen3-4B across a broad range of deployment targets, including NVIDIA GPUs, Google TPUs, AWS Graviton, and Alibaba Yitian-710. As a final case study, we show that FloatDoor reliably induces exploitable code vulnerabilities on a chosen target platform. Our results establish a new class of attacks on LLM deployments and underscore the pressing need for trusted model supply chains in sensitive, LLM-powered applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ソフトウェア工学のようなセンシティブな設定で、アウトプットが下流のアーティファクトを直接形作るようになってきている。
近年の研究では、非連想的浮動小数点演算と発散したカーネル実装の結果、デプロイプラットフォームによって同じモデルが測定可能な出力を生成できることが示されている。
本研究では,このプラットフォームに依存した変動のセキュリティへの影響について検討し,LLM展開における新たな攻撃面を明らかにする。
我々はFloatDoorを紹介した。FloatDoorは、最初のインプット非依存のプラットフォームトリガーバックドア攻撃であり、生成LDMに対する攻撃である。
妥協されたモデルでは、ターゲットプラットフォームで提供された場合の逆長線挙動が示され、そうでなければ良さが示される。
FloatDoorは2つの軽量LoRAアダプタを通じて実現されている。ひとつはプラットフォーム間の数値分岐を増幅し、もうひとつはプラットフォームシグネチャを悪意のある下流タスクにバインドする。
FloatDoorは、モデル監査とサービスの間の明確なタイム・オブ・チェック、時間・オブ・ユースギャップを利用する。
我々は、NVIDIA GPU、Google TPU、AWS Graviton、Alibaba Yitian-710など、幅広いデプロイメントターゲットにわたって、Qwen3-4B上でFloatDoorをデモした。
最後のケーススタディとして、FloatDoorは、選択したターゲットプラットフォーム上で、悪用可能なコードの脆弱性を確実に誘導することを示した。
本研究は, LLM の展開に対する新たな攻撃方法を確立し, 信頼性の高い LLM 対応アプリケーションにおける信頼性モデルサプライチェーンの必要性を浮き彫りにしている。
関連論文リスト
- TFL: Targeted Bit-Flip Attack on Large Language Model [16.379863498328955]
大規模言語モデル(LLM)は、安全およびセキュリティクリティカルなアプリケーションにますます多くデプロイされている。
本稿では,新規なビットフリップ攻撃フレームワークであるTFLを紹介する。
TFLフレームワーク内では,生成出力における攻撃者特定ターゲットトークンの促進を目的とした,キーワードに着目した新たな攻撃損失を提案する。
論文 参考訳(メタデータ) (2026-02-19T20:59:47Z) - PSM: Prompt Sensitivity Minimization via LLM-Guided Black-Box Optimization [0.0]
本稿では,シールド付加によるシステムプロンプト硬化のための新しいフレームワークを提案する。
我々は、LSM-as-optimizerを利用してShiELDの空間を探索し、敵攻撃の組から導かれる漏洩量を最小限に抑える。
最適化されたShielDは、包括的な抽出攻撃に対する急激なリークを著しく低減することを示した。
論文 参考訳(メタデータ) (2025-11-20T10:25:45Z) - $δ$-STEAL: LLM Stealing Attack with Local Differential Privacy [24.88863537562324]
我々は、相手のモデルユーティリティを保ちながら、サービス提供者の透かし検出器をバイパスするモデル盗難攻撃である$delta$-STEALを紹介します。
実験の結果、$delta$-STEALは敵のモデルユーティリティを著しく損なうことなく、最大9,6.95%の攻撃成功率を達成することがわかった。
論文 参考訳(メタデータ) (2025-10-24T18:19:38Z) - Defeating Prompt Injections by Design [79.00910871948787]
CaMeLは、Large Language Modelsを中心とした保護システムレイヤを作成する堅牢なディフェンスである。
CaMeLは、(信頼された)クエリから制御とデータフローを明示的に抽出する。
セキュリティをさらに改善するため、CaMeLは、権限のないデータフロー上のプライベートデータの流出を防止する機能の概念を使用している。
論文 参考訳(メタデータ) (2025-03-24T15:54:10Z) - LLM Misalignment via Adversarial RLHF Platforms [1.03590082373586]
強化学習は、言語モデルと人間の嗜好の整合において顕著な性能を示した。
RLHFプラットフォームは報酬モデリングやRLHFファインチューニングといった便利な機能を提供する。
公開されているRLHFツールをターゲットとしたアタックを提案する。
論文 参考訳(メタデータ) (2025-03-04T22:38:54Z) - Identify Backdoored Model in Federated Learning via Individual Unlearning [7.200910949076064]
裏口攻撃は、フェデレートラーニング(FL)の堅牢性に重大な脅威をもたらす
FLにおける悪意のあるモデルを特定するために,ローカルモデル上で個別の未学習を利用する手法であるMASAを提案する。
私たちの知る限りでは、FLの悪意あるモデルを特定するために機械学習を活用するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-11-01T21:19:47Z) - SecAlign: Defending Against Prompt Injection with Preference Optimization [52.48001255555192]
敵のプロンプトは外部のデータソースに注入され、システムの意図した命令をオーバーライドし、悪意のある命令を実行する。
我々は、好みの最適化技術に基づくSecAlignと呼ばれる新しいディフェンスを提案する。
本手法は,訓練中に見られたものよりもはるかに高度な攻撃に対しても,様々なプロンプトインジェクションの成功率を10%に下げる。
論文 参考訳(メタデータ) (2024-10-07T19:34:35Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。