論文の概要: Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection
- arxiv url: http://arxiv.org/abs/2606.19168v1
- Date: Wed, 17 Jun 2026 15:11:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.231234
- Title: Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection
- Title(参考訳): 安全データを超えて: 正常な安全反射を伴うトレーニング段階アライメント
- Authors: Jinhan Li, Kexian Tang, Yihan Xu, Zhuorui Ye, Kaifeng Lyu,
- Abstract要約: トレーニング済みのアライメントは、データを安全にする以上のものだ、と私たちは主張する。
FineWeb-Eduで事前訓練した1.7Bモデルによる実験により,安全反射事前訓練が安全性の分類精度を向上させることが示された。
この結果から,トレーニング前のアライメントはトレーニングデータを安全にするだけでなく,モデルが安全なデータから取得する可能性のある行動を形作るべきであることが示唆された。
- 参考スコア(独自算出の注目度): 14.316667931249993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve deeper safety alignment for large language models (LLMs), recent efforts have studied how to push safety interventions earlier into the pretraining stage, primarily by filtering unsafe data or rewriting it into safer forms. We argue that pretraining-stage alignment should go beyond making the data safe: LLMs may compose seemingly benign knowledge and capabilities into unsafe behaviors. To this end, we propose Safety Reflection Pretraining, a pretraining-stage alignment method which regularly inserts short safety reflections into pretraining corpora to integrate self-monitoring directly into language modeling, establishing a foundational capability that is subsequently reinforced by compatible post-training. Our experiments with 1.7B models pretrained on FineWeb-Edu show that Safety Reflection Pretraining improves safety classification accuracy and substantially reduces the success rates of inference-stage and finetuning attacks. Complementary to our real-world experiments, we also introduce a fully controlled synthetic environment, MedSafetyWorld, with a clear definition of safety and a reasoning structure under which models can easily generalize unsafe behaviors from safe data. Ablations in MedSafetyWorld further demonstrate a clear advantage of Safety Reflection Pretraining in preventing models from acting on unsafe behaviors generalized from safe data, compared with data filtering and rewriting. Taken together, our findings suggest that pretraining alignment should not only make the training data safe, but also shape the behaviors that models are likely to acquire from safe data.
- Abstract(参考訳): 大規模言語モデル(LLM)のより深い安全性確保を実現するため、安全でないデータをフィルタリングしたり、より安全な形式に書き換えることによって、安全介入を事前訓練段階に早期にプッシュする方法が近年研究されている。
プレトレーニング段階のアライメントは、データの安全性を損なうべきではない、と私たちは主張する。
そこで本研究では,短時間の安全反射を事前学習コーパスに定期的に挿入して,自己監視を直接言語モデリングに統合する,事前学習段階のアライメント手法であるSafety Reflection Pretrainingを提案する。
FineWeb-Eduで事前訓練した1.7Bモデルを用いた実験により,安全反射事前訓練は安全性の分類精度を向上し,推論ステージおよび微調整攻撃の成功率を大幅に低下させることが示された。
実世界の実験の補完として、安全を明確に定義した完全に制御された合成環境であるMedSafetyWorldを導入し、モデルが安全データから安全でない振る舞いを簡単に一般化できる推論構造を導入しました。
MedSafetyWorldのアブレーションは、データフィルタリングや書き換えと比較して、安全でない振る舞いを一般化したモデルが安全でない行動を起こさないという、セーフ・リフレクション・プレトレーニング(Safety Reflection Pretraining)の明確な利点を示している。
この結果から、トレーニング前のアライメントはトレーニングデータを安全にするだけでなく、モデルが安全なデータから取得する可能性のある行動を形作るべきだと示唆した。
関連論文リスト
- When Should We Introduce Safety Interventions During Pretraining? [100.3502954292386]
先行研究は、有害な内容の表現などの事前訓練の介入が、結果のモデルの安全性を大幅に向上させることを示した。
介入の導入は一般的に、過度な拒絶率の増加を伴わない、より堅牢なモデルをもたらす。
また、より安全な世代に向けたモデルのステアビリティにも明らかなメリットがあると考えています。
論文 参考訳(メタデータ) (2026-01-11T22:38:17Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - Safe Vision-Language Models via Unsafe Weights Manipulation [75.04426753720551]
我々は、異なるレベルの粒度で安全性を評価する新しい指標セットであるSafe-Groundを導入し、安全性の評価を見直した。
我々は異なる方向を採り、トレーニングなしでモデルをより安全にできるかどうかを探り、Unsafe Weights Manipulation (UWM)を導入します。
UWMは、セーフとアンセーフのインスタンスのキャリブレーションセットを使用して、セーフとアンセーフのコンテンツのアクティベーションを比較し、後者を処理する上で最も重要なパラメータを特定する。
論文 参考訳(メタデータ) (2025-03-14T17:00:22Z) - Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。
本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。
本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文 参考訳(メタデータ) (2025-02-04T09:31:54Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。