論文の概要: Two to Tango: Coupled Task-Reference Selection for Safe LLM Fine-tuning
- arxiv url: http://arxiv.org/abs/2606.09866v1
- Date: Mon, 01 Jun 2026 02:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:57.972219
- Title: Two to Tango: Coupled Task-Reference Selection for Safe LLM Fine-tuning
- Title(参考訳): 2 to Tango: 安全なLLMファインチューニングのためのタスク参照選択の結合
- Authors: Xinrui Chen, Jianhao Zhang, Ou Wu, Di Gao,
- Abstract要約: 下流データ上での微調整型安全性整列大言語モデル(LLM)は適応性を向上するが、学習された安全性の挙動を損なう可能性がある。
タスク条件付き安全基準を更新するタスクと参照の選択のための結合フレームワークであるDualSelectを提案する。
- 参考スコア(独自算出の注目度): 11.216676129380462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning safety aligned large language models (LLMs) on downstream data improves adaptation but may erode learned safety behavior. Existing methods use fixed safety examples, global constraints, or one-sided task filtering. Our diagnostics show task updates expose different safety constraints, motivating joint selection of relevant references and compatible task samples. We propose DualSelect, a coupled framework for task and reference selection that refreshes task conditioned safety references before filtering whole task samples compatible with the induced reference direction. Under a minimax view, DualSelect selects safety references with high preservation loss and task conflict, together with compatible task samples, through entropy-regularized scoring surrogates, lazy reference refresh, and gradient correction. On 1B-8B LLMs, DualSelect preserves safety without losing task utility; using the REDORCA judge, it improves Safety Avg. over the strongest baseline by at least 5.10 points and remains highest in Safety Avg. across judges with moderate overhead. This view extends to retention focused continual learning.
- Abstract(参考訳): 下流データ上での微調整型安全性整列大言語モデル(LLM)は適応性を向上するが、学習された安全性の挙動を損なう可能性がある。
既存の方法は固定安全例、大域的制約、一方的なタスクフィルタリングを使用する。
我々の診断では、タスク更新は異なる安全性の制約を露呈し、関連する参照と互換性のあるタスクサンプルを共同で選択する動機となっている。
提案するDualSelectは,タスク条件付き安全基準をリフレッシュするタスクと参照の選択を結合したフレームワークで,参照方向と互換性のあるタスクサンプル全体をフィルタリングする。
ミニマックスビューでは、DualSelectは、エントロピー規則化されたスコアリングサロゲート、遅延参照リフレッシュ、勾配修正を通じて、互換性のあるタスクサンプルとともに、高い保存損失とタスクコンフリクトを持つ安全基準を選択する。
1B-8B LLMでは、DualSelectはタスクユーティリティを失うことなく安全を保ちます。
最強のベースラインを少なくとも5.10ポイント越え、セーフティAvgで最高点を維持している。
頭上が適度な 裁判官にまたがって
この考え方は、継続学習に焦点を絞った継続学習にまで拡張される。
関連論文リスト
- SafeGene: Reusable Adapters for Transferable Safety Alignment [31.247158830484604]
マルチタスク再利用のための再利用可能な安全適応モジュールであるSafeGeneを提案する。
セーフジェネレーション強化モデルでは、下流性能を維持しながら、有害応答率を低減できることが示されている。
論文 参考訳(メタデータ) (2026-06-02T14:51:14Z) - Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - Token-level Data Selection for Safe LLM Fine-tuning [15.039068315115372]
カスタムデータセット上での微調整大型言語モデル(LLM)は、これらのモデルを特定のドメインやアプリケーションに適用するための標準的なアプローチとなっている。
近年の研究では、このような微調整がモデルの安全性を著しく低下させる可能性があることが示されている。
本稿では,安全劣化モデルとユーティリティ指向モデルとの損失差を測定することにより,各トークンの安全性リスクを定量化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T16:52:05Z) - Q-realign: Piggybacking Realignment on Quantization for Safe and Efficient LLM Deployment [55.14890249389052]
既存の防衛は、安全回復を微調整に埋め込んだり、微調整による修正に先立って微調整に頼ったりしている。
我々は,ポストトレーニング量子化に基づくポストホック防御手法であるtextttQ-realign を提案する。
私たちの仕事は、安全を意識したデプロイメントのための実践的でターンキーなソリューションを提供します。
論文 参考訳(メタデータ) (2026-01-13T00:07:24Z) - Unforgotten Safety: Preserving Safety Alignment of Large Language Models with Continual Learning [79.45860948246742]
我々は、大きな言語モデルを新しいタスクに適応させることで生じる安全性の低下について研究する。
ユーザがデータをサービスプロバイダにアップロードして,ユーザの選択したタスクを排他的に最適化したモデルを取得する,詳細なチューニング・アズ・ア・サービス設定について検討する。
文献からいくつかのCLアプローチを適用し,安全性の低下を緩和する能力を体系的に評価する。
論文 参考訳(メタデータ) (2025-12-10T23:16:47Z) - UpSafe$^\circ$C: Upcycling for Controllable Safety in Large Language Models [67.91151588917396]
大規模言語モデル(LLM)は、幅広いタスクで顕著な進歩を遂げているが、有害なコンテンツ生成やジェイルブレイク攻撃といった安全リスクに弱いままである。
安全に配慮したリサイクルによるLCMの安全性向上のための統合フレームワークであるUpSafe$circ$Cを提案する。
この結果から, 静的アライメントから動的, モジュール, 推論対応制御への移行という, LLMの安全性の新たな方向性が明らかになった。
論文 参考訳(メタデータ) (2025-10-02T16:43:33Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Gradient Surgery for Safe LLM Fine-Tuning [16.652518818576425]
ファインチューニング・アズ・ア・サービス(Funture-tuning-as-a-Service)は、ユーザのファインチューニングデータセットにいくつかの悪意のあるサンプルを混在させて、Large Language Models(LLM)の安全性アライメントを損なう重大な脆弱性を導入する。
既存のソリューションは有害比に非常に敏感であり、防御は有害比が増加するにつれて著しく低下する。
そこで本研究では,勾配手術を応用したSafeGradを提案する。
論文 参考訳(メタデータ) (2025-08-10T04:13:41Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [30.820398160975504]
微調整された大型言語モデル(LLM)は安全性を損なう可能性があるため、LSMは有害または非倫理的なプロンプトに応答する。
本稿では,下流性能を維持しながら安全性を維持する軽量なポストファインニングフレームワークであるSafeMERGEを提案する。
以上の結果から,選択的層ワイドマージは微調整時の安全性の低下を効果的に防ぐことができることが示された。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - SCANS: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
悪意のある命令から脅威を守るために、LLM(Large Language Models)には安全アライメントが不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。