論文の概要: Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2606.10860v1
- Date: Tue, 09 Jun 2026 13:39:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.523276
- Title: Training LLMs to Enforce Multi-Level Instruction Hierarchies via Gravity-Weighted Direct Preference Optimization
- Title(参考訳): 重力重み付き直接選好最適化によるマルチレベル命令階層化のためのLLMの訓練
- Authors: Lena S. Bolliger, Lena A. Jäger,
- Abstract要約: プロダクションLSMは、非常に異なるレベルの信頼を持つソースから命令を受け取りながら、均一なアーキテクチャ特権を持つすべてのトークンに出席する。
これは、悪意のあるプロンプトインジェクションを可能にする構造的脆弱性であり、より広範に、正当な命令と競合する命令の衝突を解決するための原則的な方法のないモデルを残している。
線形または二値スケジュール下での競合レベル間の構造的距離でサンプルごとのオフセットがスケールする選好最適化目標である重力重み付きDPOを導入する。
- 参考スコア(独自算出の注目度): 3.573729952898132
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production LLMs receive instructions from sources with very different levels of trust, yet attend to every token with uniform architectural privilege. This is the structural vulnerability that enables malicious prompt injections and, more broadly, leaves models without a principled way to resolve conflicts between legitimate but competing instructions. A common training-based response is to teach models an explicit instruction hierarchy; existing approaches, however, formalize hierarchies of only three or four levels, treat all violations as equally severe, and rarely evaluate the full set of pairwise level interactions. We formalize a k-level instruction hierarchy problem and instantiate it for k=5, yielding ten pairwise priority relations that a compliant model must enforce. We then introduce Gravity-Weighted DPO (GW-DPO), a preference-optimization objective whose per-sample offset scales with the structural distance between conflicting levels under a linear or bilateral schedule, the latter weighting severity by both the privilege gap and the privilege of the victim level. Combined with hierarchy-specific delimiter tokens (Chen et al., 2025) and Instructional Segment Embeddings (ISE; Wu et al., 2025), GW-DPO with the bilateral schedule Pareto-improves over standard DPO and the linear variant on Llama-3.1-8B-Instruct, raising macro pairwise priority adherence while keeping over-refusal at half the standard DPO rate. Ablations isolate ISE as a refusal-threshold calibrator and recast five- versus three-level training as a generality-specialization tradeoff.
- Abstract(参考訳): プロダクションLSMは、非常に異なるレベルの信頼を持つソースから命令を受け取りながら、均一なアーキテクチャ特権を持つすべてのトークンに出席する。
これは、悪意のあるプロンプトインジェクションを可能にする構造的脆弱性であり、より広範に、正当な命令と競合する命令の衝突を解決するための原則的な方法のないモデルを残している。
しかし、既存のアプローチでは、3つか4つのレベルの階層を形式化し、すべての違反を同じように深刻に扱い、ペアレベルの相互作用の完全なセットを評価することは滅多にない。
我々はkレベル命令階層問題を定式化し、k=5でインスタンス化する。
次に,重み付きDPO(Gravity-Weighted DPO,GW-DPO)を導入する。これは,各サンプルのオフセットが,線形あるいは二値スケジュール下での競合レベル間の構造的距離とスケールし,後者は特権ギャップと被害者レベルの特権の両方によって重み付けされた重み付けである。
階層固有のデリミタトークン(Chen et al , 2025)とインストラクショナルセグメント埋め込み(ISE; Wu et al , 2025)を組み合わせることで、標準DPOとLlama-3.1-8B-インストラクト上の線形変種に対してパレート-DPOが改善され、標準DPOレートの半分を保ちながらマクロ対の優先順守が向上する。
アブレーションは、ISEを拒絶閾値キャリブレータとして分離し、一般的な特殊化トレードオフとして5レベル対3レベルのトレーニングを再放送する。
関連論文リスト
- Online Continual Learning with Dynamic Label Hierarchies [72.33335166136045]
粒度をまたいで重大度が進化する新しい問題設定であるDHOCLを導入し,各サンプルは単一階層レベルでの監視を行う。
i) 混合粒度の部分的監視は、塑性を制約し、階層間のセマンティック一貫性を損なう、進化するパスワイド階層上のポイントワイド信号のみを提供する。
本稿では,相補的分類を適応的に組み合わせ,学習可能な階層型プロトタイプによって正規化し,素早い適応,階層的整合性,構造的知識の統合を可能にするHALOを提案する。
論文 参考訳(メタデータ) (2026-05-12T08:20:23Z) - A Unified Pair-GRPO Family: From Implicit to Explicit Preference Constraints for Stable and General RL Alignment [6.3333468199326255]
優先学習による大規模言語モデル(LLM)のアライメントは、不安定なポリシー更新、曖昧な勾配方向、高い勾配分散に悩まされている。
我々は、Pair-GRPOファミリを中心とした嗜好に基づくRL最適化のための統一的理論的枠組みを確立する。
両変種を包括的に理論的に保証する - 単調な政策改善、決定論的勾配方向、勾配分散低減、動的ステップサイズ収束を含む。
論文 参考訳(メタデータ) (2026-05-07T14:56:11Z) - Mind the Gap: Structure-Aware Consistency in Preference Learning [42.67092904252001]
嗜好学習は、大規模言語モデルと人間の意図との整合の基礎となっている。
ニューラルネットワークに典型的な等連続仮説集合に対して、標準代理は理論的に矛盾することを示す。
分離マージンの強制に依存する厳格な$H$一貫性境界を導出する。
我々はこれをStructure-Aware $H$-consistencyに拡張し、同義語とハードペアを扱うための応答間の意味的距離に基づいてマージンを適応する新しい目的(SA-DPO)を導入する。
論文 参考訳(メタデータ) (2026-04-30T11:24:04Z) - Generalist++: A Meta-learning Framework for Mitigating Trade-off in Adversarial Training [105.74524789405514]
対人訓練(AT)は、現在、ニューラルネットワークに対する最も効果的な防御である。
本稿では,汎用化目標を複数のサブタスクに分割し,それぞれを専用のベースラーナに割り当てる。
トレーニングの後半では、これらのパラメータを補間して、知識のあるグローバルな学習者を形成する。
このフレームワークをGeneralistと呼び、異なるアプリケーションシナリオに適した3つのバリエーションを紹介します。
論文 参考訳(メタデータ) (2025-10-15T09:47:54Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Solving the Granularity Mismatch: Hierarchical Preference Learning for Long-Horizon LLM Agents [56.625878022978945]
自律的なエージェントとしての大規模言語モデル(LLM)は、複雑で長期にわたる問題の解決にますます取り組まれている。
直接優先度最適化(DPO)は、正確なクレジット代入には大きすぎる信号を提供するが、ステップレベルのDPOは、しばしば、複数のステップの振る舞いの値をキャプチャするには、筋が通らない。
階層的選好学習(HPL)は、複数の相乗的粒度における選好信号を活用することで、LLMエージェントを最適化する階層的フレームワークである。
論文 参考訳(メタデータ) (2025-09-26T08:43:39Z) - Direct Preference Optimization for Primitive-Enabled Hierarchical Reinforcement Learning [75.9729413703531]
DIPPERは階層的な政策学習を二段階最適化問題として定式化する新しいHRLフレームワークである。
DIPPERは、スパース報酬シナリオにおいて、最先端のベースラインよりも最大40%改善されていることを示す。
論文 参考訳(メタデータ) (2024-11-01T04:58:40Z) - CRISP: Curriculum Inducing Primitive Informed Subgoal Prediction for Hierarchical Reinforcement Learning [25.84621883831624]
CRISPは、階層的強化学習における不安定性に取り組むカリキュラム駆動のフレームワークである。
現在の低レベルプリミティブによって常に到達可能なサブゴールを生成するために、エキスパートのデモを適応的にリラベルする。
強い階層的ベースラインと平坦なベースラインに対して、成功率を40%以上向上させる。
論文 参考訳(メタデータ) (2023-04-07T08:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。