論文の概要: What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?
- arxiv url: http://arxiv.org/abs/2606.20508v1
- Date: Thu, 18 Jun 2026 17:25:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:40.019218
- Title: What Do Safety-Aligned LLMs Learn From Mixed Compliance Demonstrations?
- Title(参考訳): 混合コンプライアンス・デモから安全に配慮したLLMは何を学べるか?
- Authors: Sihui Dai, Mann Patel,
- Abstract要約: モデルがどのように異なる種類のコンプライアンス・デモを解釈するかを検討する。
良心と有害なデモンストレーションは交換不可能である。
この作業は、デモベースのジェイルブレイクの動作を示すだけでなく、その動作を特徴付けるものでもある。
- 参考スコア(独自算出の注目度): 5.226055711252121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has shown that in-context demonstrations can jailbreak language models, but it remains unclear how models interpret different types of compliance demonstrations. We study this by mixing benign compliance demonstrations (non-harmful request, helpful response) with harmful compliance demonstrations (harmful request, helpful response) and testing three hypotheses about how demonstration composition drives harmful compliance. Across four models, we find that benign and harmful demonstrations are not interchangeable: benign demonstrations can either reduce or increase harmful compliance depending on the model. We further show that preference optimization is the critical training stage that prevents benign demonstrations from increasing harmful compliance, that demonstration ordering exhibits strong recency bias, and that models differ in how refusal interacts with in-context learning: some adopt demonstrated formatting even when refusing, while others override all in-context signals upon refusal. Taken together, this work moves beyond showing that demonstration-based jailbreaking works to characterizing how it works: what models extract from compliance demonstrations depends on demonstration content, ordering, and training methodology.
- Abstract(参考訳): 以前の研究では、コンテキスト内デモはジェイルブレイク言語モデルを可能にすることが示されているが、モデルがどのように異なるタイプのコンプライアンスデモを解釈するかは定かではない。
本研究は, 有害なコンプライアンス・デモ(非有害な要求, 有用な応答)と有害なコンプライアンス・デモ(有害な要求, 有効な応答)とを混合し, デモ・コンポジションが有害なコンプライアンス・デモを駆動する3つの仮説を検証した。
4つのモデルにまたがって、良心的かつ有害な実証は交換不可能であることがわかった。
さらに、優先最適化は、良心的なデモンストレーションが有害なコンプライアンスを増すのを防ぐ重要な訓練段階であり、デモオーダが強い傾向バイアスを示すこと、また、拒絶が文脈内学習とどのように相互作用するかが異なること、また、拒絶時にすべての文脈内信号をオーバーライドするモデルがあることも示している。
同時に、この作業は、デモベースのジェイルブレイクが機能することを示すこと、すなわち、コンプライアンス実証から抽出したモデルが、デモコンテンツ、注文、およびトレーニング方法論に依存している、という特徴に留まらない。
関連論文リスト
- Robots That Know What to Ask: Recovering Misaligned Rewards through Targeted Explanations [1.9662978733004601]
デモンストレーションから報酬関数を学ぶことは、デモがすべての機能に対して適切な監視を提供すると仮定する。
人間は認知的負荷や身体的困難のために、特定の特徴を過小評価することがある。
本稿では,そのような不特定特徴を検知し,対象とする修正デモを積極的に行うフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-21T19:34:14Z) - PICLe: Pseudo-Annotations for In-Context Learning in Low-Resource Named Entity Detection [56.916656013563355]
In-context Learning (ICL)により、大規模言語モデルでは、デモをほとんど使わずにタスクを実行することができる。
PICLeは、ノイズの多い擬似アノテーション付き実演によるインコンテキスト学習のためのフレームワークである。
バイオメディカルな5つのNEDデータセット上でPICLeを評価し,PICLeが低リソース環境でICLより優れていることを示す。
論文 参考訳(メタデータ) (2024-12-16T16:09:35Z) - Unlabeled Imperfect Demonstrations in Adversarial Imitation Learning [48.595574101874575]
現実の世界では、専門家によるデモは不完全である可能性が高い。
正のラベル付き対逆模倣学習アルゴリズムを開発した。
エージェントポリシーは、差別者を騙し、これらの最適な専門家のデモと同様の軌道を生成するように最適化される。
論文 参考訳(メタデータ) (2023-02-13T11:26:44Z) - Out-of-Dynamics Imitation Learning from Multimodal Demonstrations [68.46458026983409]
本研究では,実演者と模倣者が同じ状態空間を持つという仮定を緩和する,動的外模擬学習(OOD-IL)について検討する。
OOD-ILは、様々なデモ参加者のデモを利用するための模倣学習を可能にするが、新しい挑戦を導入する。
我々は,この新たな課題に取り組むために,より優れた伝達可能性測定法を開発した。
論文 参考訳(メタデータ) (2022-11-13T07:45:06Z) - Robustness of Demonstration-based Learning Under Limited Data Scenario [54.912936555876826]
実証に基づく学習は、限られたデータシナリオ下で事前訓練された言語モデルの能力を刺激する大きな可能性を示している。
実演と予測の間に明確な整合性がないため、なぜこのような実演が学習プロセスに有益なのかは不明だ。
本稿では,実証に基づくシーケンスラベリングの頑健さを深く掘り下げるために,標準情報から直感的に有用な情報を徐々に取り除き,病理デモを設計する。
論文 参考訳(メタデータ) (2022-10-19T16:15:04Z) - Extraneousness-Aware Imitation Learning [25.60384350984274]
Extraneousness-Aware Learning (EIL)は、外部サブシーケンスを用いた第三者によるデモンストレーションから、ビズモタポリシーを学ぶ。
EILは、自己監督された方法で行動条件付き観察埋め込みを学習し、視覚的なデモンストレーション全体にわたってタスク関連観測を検索する。
実験の結果、EILは強いベースラインを上回り、完璧なデモで訓練した人たちと同等のポリシーを達成していることがわかった。
論文 参考訳(メタデータ) (2022-10-04T04:42:26Z) - Let Me Check the Examples: Enhancing Demonstration Learning via Explicit
Imitation [9.851250429233634]
デモ学習は、いくつかのショット設定で回答されたデモを提供することで、迅速な予測を導くことを目的としている。
既存の作業は、追加操作なしでプロンプトテンプレートのデモとして、回答された例のみをコーポラ化する。
我々は、人間のレビュー行動を明確に模倣することで、実証学習を強化するためにImitation DEMOnstration Learning (Imitation-Demo)を導入した。
論文 参考訳(メタデータ) (2022-08-31T06:59:36Z) - Rethinking the Role of Demonstrations: What Makes In-Context Learning
Work? [112.72413411257662]
大規模言語モデル(LM)は、いくつかのインプットラベルペア(デモ)を条件付けして、新しいインプットの予測を行うことで、インコンテキストで学習することができる。
実演のラベルをランダムに置き換えることは、パフォーマンスをほとんど損なうものではない。
デモの他の側面が、エンドタスクのパフォーマンスの主要な要因であることに気付きました。
論文 参考訳(メタデータ) (2022-02-25T17:25:19Z) - Learning Feasibility to Imitate Demonstrators with Different Dynamics [23.239058855103067]
実演から学ぶことのゴールは、実演の動作を模倣してエージェント(模倣者)のポリシーを学ぶことである。
我々は、実演が模倣者によって実現可能である可能性を捉えた実現可能性指標を学習する。
シミュレーションされた4つの環境と実際のロボットを用いた実験により,本手法で学んだ方針が,従来よりも期待されたリターンを達成できることが判明した。
論文 参考訳(メタデータ) (2021-10-28T14:15:47Z) - Robust Maximum Entropy Behavior Cloning [15.713997170792842]
模倣学習(il)アルゴリズムは、特定のタスクを学ぶために専門家のデモンストレーションを使用する。
既存のアプローチのほとんどは、すべての専門家によるデモンストレーションは信頼性と信頼性を前提としていますが、もし与えられたデータセットに敵対的なデモが存在するとしたらどうでしょう?
敵対するデモを自律的に検出し、データセットから除外するデモからポリシーを直接生成する、新しい一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-04T22:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。