論文の概要: Distilling Safe LLM Systems via Soft Prompts for On Device Settings
- arxiv url: http://arxiv.org/abs/2606.09388v1
- Date: Mon, 08 Jun 2026 12:03:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.961833
- Title: Distilling Safe LLM Systems via Soft Prompts for On Device Settings
- Title(参考訳): ソフトプロンプトによる安全なLCMシステム
- Authors: Motasem Alfarra, Cristina Pinneri, Dana Kianfar, Mohammed Almousa, Christos Louizos,
- Abstract要約: 本稿では,資源制約設定のためのパラメータ効率の高い安全アライメント手法を提案する。
蒸留法に基づく訓練とソフトプロンプトが相まって、代替手法を一貫して上回っていることを確認した。
- 参考スコア(独自算出の注目度): 15.154042788412879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying safe large language models (LLMs) on resource-constrained edge devices presents a critical challenge: while dual-model systems combining LLMs with guard models provide effective safety guarantees, their substantial memory and computational demands make them prohibitively expensive for on-device deployment. This paper presents a comprehensive study of parameter-efficient safety alignment methods for resource-constrained settings. Through systematic evaluation across multiple LLM architectures, training objectives, and parameter-efficient fine-tuning approaches, we identify that soft prompts combined with distillation-based training consistently outperform alternative methods. We introduce distillation frameworks based on total variation and KL divergence that effectively transfer safety behaviors from guard models into learned soft prompts. Our evaluations on various benchmarks demonstrate that this combination achieves superior safety-usefulness trade-offs compared to LoRA adapters, steering vectors, and direct optimization methods, while requiring minimal additional memory and compute at inference time. These findings establish soft prompt distillation as the preferred approach for safety alignment in on-device LLM deployment.
- Abstract(参考訳): リソース制約のあるエッジデバイスに安全な大規模言語モデル(LLM)をデプロイすることは、重要な課題である。
本稿では,資源制約設定のためのパラメータ効率の高い安全アライメント手法について包括的に検討する。
複数のLLMアーキテクチャ、トレーニング目標、パラメータ効率のよい微調整アプローチを体系的に評価することにより、蒸留ベースのトレーニングとソフトプロンプトが相反する代替手法を一貫して上回ることを示す。
本稿では, 安全挙動をガードモデルから学習ソフトプロンプトへ効果的に伝達する, 全変量とKL分散に基づく蒸留フレームワークを提案する。
各種ベンチマークで評価したところ, この組み合わせはLoRAアダプタ, ステアリングベクトル, 直接最適化手法に比べ, 安全性と利便性のトレードオフに優れており, 最小限のメモリと計算を推論時に必要としている。
これらの結果から, ソフトプロンプト蒸留が, デバイス上でのLCM配置における安全性向上の方法として望ましいことが示唆された。
関連論文リスト
- Towards Identification and Intervention of Safety-Critical Parameters in Large Language Models [39.89636417379952]
大言語モデル(LLM)の安全性は重要であるが、安全性メカニズムに関する明確な理解の欠如は、安全介入のための正確で信頼性の高い方法論の開発を妨げる。
我々は,LLMの安全性に異なるパラメータがどう影響するかを定量化するための,期待された安全影響(ESI)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-09T14:31:42Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Improving LLM Reliability through Hybrid Abstention and Adaptive Detection [1.9495934446083012]
運用環境にデプロイされる大規模言語モデル(LLM)は、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは通常、文脈に敏感で計算コストが高い。
本研究では,リアルタイムのコンテキスト信号に基づいて安全閾値を動的に調整する適応型禁制システムを提案する。
論文 参考訳(メタデータ) (2026-02-17T07:00:09Z) - Safe Reinforcement Learning via Recovery-based Shielding with Gaussian Process Dynamics Models [57.006252510102506]
強化学習(Reinforcement Learning, RL)は、最適な意思決定と制御のための強力なフレームワークである。
本稿では,未知および非線形連続力学系に対する安全性を低くした安全RLを実現するための新しい回復型遮蔽フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-12T22:03:35Z) - Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models [3.710103086278309]
大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。
ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。
この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2025-12-05T00:43:55Z) - Reimagining Safety Alignment with An Image [49.33281424100804]
大きな言語モデル(LLM)は多様なアプリケーションで優れていますが、Jailbreak攻撃下で有害なコンテンツを生成し、良質なクエリを過剰に拒否する、という2つの課題に直面しています。
我々は,過度な拒絶を低減しつつ,セキュリティを向上させる最適化駆動型ビジュアルプロンプトフレームワークであるMagic Imageを提案する。
論文 参考訳(メタデータ) (2025-11-01T11:27:07Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Enhancing Robustness of LLM-Driven Multi-Agent Systems through Randomized Smoothing [13.997409139696556]
本稿では,大型言語モデル(LLM)の安全性向上のための枠組みとして,航空宇宙などの安全クリティカル領域におけるマルチエージェントシステム(MAS)について述べる。
統計的ロバスト性証明手法であるランダム化スムーシングをMASコンセンサス・コンテキストに適用し、敵の影響下でのエージェント決定に対する確率的保証を可能にする。
論文 参考訳(メタデータ) (2025-07-05T17:26:08Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。