論文の概要: ALIGNBEAM : Inference-Time Alignment Transfer via Cross-Vocabulary Logit Mixing
- arxiv url: http://arxiv.org/abs/2606.12342v1
- Date: Wed, 10 Jun 2026 17:15:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.585217
- Title: ALIGNBEAM : Inference-Time Alignment Transfer via Cross-Vocabulary Logit Mixing
- Title(参考訳): ALIGNBEAM : クロスボキャブラリロジットミキシングによる推論時間アライメント転送
- Authors: Chirag Chawla, Pratinav Seth, Vinay Kumar Sankarapu,
- Abstract要約: ALIGNBEAMは、アンカーロジットを各復号ステップでターゲットモデルの語彙トークンに変換する。
重みは変更されず、再トレーニングすることなく、配置時に安全ユーティリティのトレードオフを調整することができる。
その結果,モデルの重みに触ることなく,モデルファミリ間で安全アライメントを伝達できることが示唆された。
- 参考スコア(独自算出の注目度): 3.6704226968275253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Domain fine-tuning degrades the safety of large language models: fine-tuned specialists readily comply with harmful prompts framed in domain language. Existing inference-time defenses that mix logits from a safe anchor model require both models to share a vocabulary, which rules them out for the cross-family specialists where safety is most degraded. We present ALIGNBEAM, a training-free method that lifts this restriction by translating anchor logits into the target model's vocabulary token-by-token at each decoding step; a small LLM judge then selects the safest among K candidate continuations. No weights are changed, and the safety-utility trade-off can be tuned at deployment without retraining. Across both cross-vocabulary and same-vocabulary evaluation pairs, ALIGNBEAM substantially raises refusal on adversarial benchmarks while keeping task accuracy and inference overhead within practical bounds. The results show that safety alignment can be transferred between model families at inference time, without touching either model's weights.
- Abstract(参考訳): ドメインファインチューニング(Domain Fine-tuning)は、大きな言語モデルの安全性を低下させる。
安全なアンカーモデルからロジットを混ぜ合わせた既存の推論時防御では、両方のモデルが語彙を共有する必要がある。
本稿では,各復号ステップにおいて,アンカーロジットをターゲットモデルの語彙単位のトークンに翻訳することで,この制限を解除するトレーニングフリー手法であるALIGNBEAMについて述べる。
重みは変更されず、再トレーニングすることなく、配置時に安全ユーティリティのトレードオフを調整することができる。
ALIGNBEAMは、クロスボキャブラリと同語彙評価ペアの双方にわたって、実際の境界内でタスク精度と推論オーバーヘッドを維持しながら、対向ベンチマークの拒絶を著しく高めている。
その結果,モデルの重みに触ることなく,モデルファミリ間で安全アライメントを伝達できることが示唆された。
関連論文リスト
- Towards Context-Invariant Safety Alignment for Large Language Models [37.23800025875439]
我々は,検証可能なプロンプトをアンカーとして扱うアンカー不変性正規化(AIR)を導入し,アンカー性能に対するオープンエンド変種のみを正規化するために,停止段階のターゲットを用いる。
AIRは、流通グループの精度を12.71%向上し、流通の一貫性を33.49%向上させ、敵のフレーミングに対する安全性の制約を堅牢にする。
論文 参考訳(メタデータ) (2026-05-20T10:33:11Z) - Self-Distilled Trajectory-Aware Boltzmann Modeling: Bridging the Training-Inference Discrepancy in Diffusion Language Models [65.89572755202245]
拡散言語モデル(DLM)は、より強力なグローバル認識と高い並列生成を提供する。
標準負のエビデンス下界(NELBO)に基づく教師付き微調整後のDLMは非効率である。
そこで本研究では,学習を推論の容易かつハードな構造に整合させる,自己蒸留軌道に基づくポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-12T09:39:06Z) - Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning [4.839980912290382]
大規模言語モデル(LLM)は、ダウンストリームタスクでうまく機能するために細調整(FT)を必要とすることが多い。
FTは、トレーニングデータセットが良性データのみを含む場合でも、安全アライメントドリフトを誘導することができる。
本稿では,安全トークンに対するモデルの信頼性を安定化させる,制約付きトークンによる安全アライメントの保存(PACT)という微調整フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-08T03:42:55Z) - A Granular Study of Safety Pretraining under Model Abliteration [64.24346997570275]
本稿では,リフレクションに敏感な方向を除去する軽量プロジェクション技術であるモデルアブリーブレーションについて検討する。
我々は、バランスのとれた有害かつ無害なケースで100のプロンプトを発行し、複数の判断を用いて**Refusal*または***Non-Refusal*として応答を分類し、判断の忠実さを検証する。
本研究は,データ中心の安全コンポーネントが失語中も頑健であるチェックポイントレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-10-03T07:01:45Z) - Learning Natural Language Constraints for Safe Reinforcement Learning of Language Agents [13.63944785085617]
一般化可能なアライメントは、現実世界のNLPアプリケーションにLLM(Large Language Models)を安全にデプロイする上で、重要な課題である。
チューニング前にデータを最初にキュレートするパラダイムシフトに触発されて、安全な言語アライメントのための新しいフレームワークを導入しました。
制約付きマルコフ決定プロセス(CMDP)内のフレームワークを形式化し,テキストベースのナビゲーション環境を通じて検証する。
論文 参考訳(メタデータ) (2025-04-04T05:26:28Z) - A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens [26.119521867045616]
モデルの語彙を特別な赤いフラグトークンで拡張することを提案する。
有害なコンテンツが生成または差し迫ったときに、このトークンを挿入するようにモデルをトレーニングします。
このアプローチは,既存の安全技術と補完するものだ。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。