論文の概要: SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling
- arxiv url: http://arxiv.org/abs/2606.19755v1
- Date: Thu, 18 Jun 2026 03:35:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.636975
- Title: SafeSpec: Fast and Safe LLM via Dynamic Reflective Sampling
- Title(参考訳): SafeSpec: ダイナミックリフレクティブサンプリングによる高速かつ安全なLCM
- Authors: Haotian Xu, Zeyang Zhang, Linbao Li, Huadi Zheng, Yu Li, Cheng Zhuo,
- Abstract要約: リスク推定を直接検証プロセスに統合する投機的推論フレームワークであるSafeSpecを提案する。
複数のモデルと反対ベンチマークを通じて、SafeSpecは安全性と効率のトレードオフを大幅に改善した。
Qwen3-32Bでは、SafeSpecは攻撃成功率を15%削減し、良質なワークロード上で2.06倍の推論速度を維持する。
- 参考スコア(独自算出の注目度): 12.768157540795707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative inference accelerates large language model (LLM) decoding but provides no inherent safety guarantees. Existing safety defenses are largely incompatible with speculative inference: they either introduce additional computation or disrupt the draft-verify mechanism, negating acceleration benefits. This reveals a fundamental incompatibility between current safety methods and speculative decoding. We propose SafeSpec, a safety-aware speculative inference framework that integrates risk estimation directly into the verification process. SafeSpec attaches a lightweight latent safety head to the target model to jointly evaluate semantic validity and safety in a single forward pass. When unsafe generations are detected, SafeSpec applies rollback and safety-guided reflective multi-sampling to recover safe continuations rather than terminating generation. We model jailbreak attacks as distributional shifts over generative trajectories, where adversarial prompts increase the probability of harmful continuations without eliminating safe ones. Under this model, SafeSpec performs risk-aware trajectory recovery within the speculative decoding process. Across multiple models and adversarial benchmarks, SafeSpec achieves a substantially improved safety-efficiency trade-off. On Qwen3-32B, SafeSpec reduces attack success rates by 15% while preserving a 2.06x inference speedup on benign workloads, demonstrating that speculative acceleration and inference-time safety can be jointly optimized.
- Abstract(参考訳): 投機推論は、大きな言語モデル(LLM)デコードを促進するが、固有の安全保証は提供しない。
既存の安全防衛は投機的推論とほとんど互換性がなく、追加の計算を導入するか、ドラフト検証メカニズムを妨害し、加速の利点を否定する。
これは、現在の安全性メソッドと投機的復号化の根本的な非互換性を明らかにしている。
本稿では,リスク推定を直接検証プロセスに統合する安全対応型投機推論フレームワークであるSafeSpecを提案する。
SafeSpecは、軽量の潜伏安全ヘッドをターゲットモデルにアタッチし、単一のフォワードパスにおけるセマンティックな妥当性と安全性を共同で評価する。
安全でない世代が検出されると、SafeSpecはロールバックと安全誘導型リフレクティブマルチサンプリングを適用して、生成を終了させるのではなく、安全な継続を回復する。
我々は、ジェイルブレイク攻撃を、生成的軌跡よりも分布的なシフトとしてモデル化し、敵は安全なものを排除することなく有害な継続の確率を増大させる。
このモデルでは、SafeSpecは投機的復号プロセス内でリスクを意識した軌道回復を行う。
複数のモデルと反対ベンチマークを通じて、SafeSpecは安全性と効率のトレードオフを大幅に改善した。
Qwen3-32Bでは、SafeSpecは、良質なワークロードで2.06倍の推論スピードアップを維持しながら、攻撃成功率を15%削減し、投機的アクセラレーションと推論時間の安全性を共同最適化できることを実証している。
関連論文リスト
- Adaptive and Explicit safe: Triggering Latent Safety Awareness in Large Reasoning Models [31.940554924036807]
大規模推論モデル(LRM)は、高度なジェイルブレイクや直接的な有害なクエリに対して非常に脆弱である。
我々は、安全分析とガイダンスをトリガーする安全なタグを明示的に誘導するために、Supervised Fine-Tuning (SFT) を採用している。
また、安全分析およびガイダンスの正確性と安定性をさらに高めるために、直接選好最適化(DPO)を適用した。
論文 参考訳(メタデータ) (2026-06-15T14:51:34Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - STAIR: Improving Safety Alignment with Introspective Reasoning [44.780098674618614]
SafeTyアライメントとItrospective Reasoningを統合したフレームワークSTAIRを提案する。
その結果,STAIRは本能的アライメント戦略と比較して,有害なアウトプットを効果的に軽減し,有用性を保っていることがわかった。
テスト時のスケーリングでは、STAIRは一般的なジェイルブレイク攻撃に対して、Claude-3.5に匹敵する安全性能を達成する。
論文 参考訳(メタデータ) (2025-02-04T15:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。