論文の概要: DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment
- arxiv url: http://arxiv.org/abs/2606.07678v1
- Date: Thu, 04 Jun 2026 20:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.269624
- Title: DOG-DPO:Dynamic Optimization in Geometry for Safety Alignment
- Title(参考訳): DOG-DPO:安全アライメントのための幾何学の動的最適化
- Authors: Yi Nian, Tiankai Yang, Yudi Zhang, Qi Pan, Zelong Xu, Shenzhe Zhu, Qingqing Luan, Yue Huang, Xiangliang Zhang, Yue Zhao,
- Abstract要約: DOG-DPOは、好みのペアを構造化された幾何学的信号として扱う、トレーニング不要のデータ選択フレームワークである。
完全なデータトレーニングの安全性向上のほとんどを回復し、教師なし、トレーニングなし、および代表選抜ベースラインよりも大幅に高速に維持する。
- 参考スコア(独自算出の注目度): 30.773107232228067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety alignment for large language models relies on preference data, but current pipelines often train on large, redundant datasets. Existing data selection methods typically score each preference pair independently, collapsing directional preference information into scalar quality or diversity scores. This sample-centric view is especially limiting in multi-dataset settings, where shared safety directions coexist with dataset-specific residual risks. We propose DOG-DPO, a training-free data selection framework that treats preference pairs as structured geometric signals. DOG-DPO first represents each preference pair as a direction in model representation space. It then decomposes multi-dataset preference geometry into a global anchor subspace and dataset-specific residual subspaces. Finally, it selects subsets by maximizing diversity-based coverage, encouraging broad, non-redundant coverage of alignment directions before DPO training. Across six safety benchmarks and two model backbones, DOG-DPO achieves a strong utility-robustness trade-off using only 11% of the preference pairs. It recovers most of the safety gains of full-data training while remaining entirely teacher-free, training-free, and substantially faster than representative selection baselines.
- Abstract(参考訳): 大きな言語モデルの安全性アライメントは、好みのデータに依存するが、現在のパイプラインは、大きな冗長なデータセットでトレーニングされることが多い。
既存のデータ選択方法は通常、それぞれの選好ペアを個別にスコアし、指向性選好情報をスカラー品質や多様性スコアに分解する。
このサンプル中心のビューは、データセット固有の残留リスクと共存する共有安全方向を持つマルチデータセット設定において、特に制限されている。
我々は、好みペアを構造化幾何信号として扱う訓練不要なデータ選択フレームワークであるDOG-DPOを提案する。
DOG-DPOはまず、各選好ペアをモデル表現空間の方向として表現する。
その後、マルチデータセットの選好幾何学をグローバルアンカー部分空間とデータセット固有の残留部分空間に分解する。
最後に、多様性に基づくカバレッジを最大化してサブセットを選択し、DPOトレーニングの前にアライメント方向の広範で非冗長なカバレッジを奨励する。
6つの安全ベンチマークと2つのモデルバックボーンで、DOG-DPOは、好みのペアの11%しか使用しない強力なユーティリティ・ロバスト性トレードオフを達成する。
完全なデータトレーニングの安全性向上のほとんどを回復し、教師なし、トレーニングなし、および代表選抜ベースラインよりも大幅に高速に維持する。
関連論文リスト
- FedPDPO: Federated Personalized Direct Preference Optimization for Large Language Model Alignment [55.97027207627]
Fed PDPO(Federated Personalized Direct Preference Optimization)は、大規模言語モデル(LLM)の優先順位調整のためのパーソナライズされたフレームワークである。
パラメータ効率の良い微調整アーキテクチャを採用し、各クライアントはLow-Rank Adaptation (LoRA)アダプタで拡張された凍結したLLMバックボーンを維持し、通信効率のよいアグリゲーションを可能にする。
複数の嗜好データセットの実験では、最先端のパフォーマンスを示し、フェデレーション付きドメイン内およびクロスドメイン設定の平均精度が4.80%向上した。
論文 参考訳(メタデータ) (2026-03-20T08:24:49Z) - Robust Preference Alignment via Directional Neighborhood Consensus [13.313830197011983]
本稿では,指向性近傍のコンセンサスを利用したポストホックなトレーニングフリー手法であるRobust Preference Selection(RPS)を紹介する。
RPSは、関連する好みの地域からの複数の応答をサンプリングし、優れた候補プールを作成する。
本研究は, 嗜好整合モデルの信頼性を高めるための, 実用的, 理論的に基礎的なソリューションを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:39:20Z) - Learning from the Best, Differently: A Diversity-Driven Rethinking on Data Selection [45.327105807111934]
既存のアプローチは通常、1次元または複数次元のスコアベースの選択に依存する。
本稿では,データ選択時の品質と多様性を両立するOrthogonal Diversity-Aware Selection (ODiS)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-10-21T03:37:31Z) - Beyond Single: A Data Selection Principle for LLM Alignment via Fine-Grained Preference Signals [46.58760908162995]
本研究では,大規模言語モデルのための新しい理論的基盤データ選択法を提案する。
直接選好最適化目標の損失境界を解析することにより,この戦略の最適性を証明する。
我々の戦略は、標準的な全体主義的嗜好とより強い託宣の両方に対して、10%以上の相対的な改善を達成する。
論文 参考訳(メタデータ) (2025-08-11T05:43:02Z) - Shallow Preference Signals: Large Language Model Aligns Even Better with Truncated Data? [34.18909976476456]
優先応答で得られる識別信号が初期トークンに集中していることが示される。
意外なことに、切り捨てられたデータセットでトレーニングされたモデルでは、トークンの前半または後半しか保持せず、完全なデータセットでトレーニングされたモデルと同等あるいはそれ以上のパフォーマンスを実現している。
そこで我々は,浅層優先信号を利用してアライメントと計算効率のトレードオフを最適化する,浅部報酬信号観測(Longth Control Decoding)とKL Threshold Control Decoding(KL Threshold Control Decoding)の2つの単純な復号方式を提案する。
論文 参考訳(メタデータ) (2025-05-21T17:59:02Z) - Adapt-$\infty$: Scalable Continual Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、生涯のインストラクションチューニングのための、新しいマルチウェイおよびアダプティブなデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
このデータセレクタは、トレーニングのために各スキルクラスタから最も重要なサンプルのサブセットをサンプリングする。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。