論文の概要: Online Shift Detection and Conformal Adaptation for Deployed Safety Classifiers
- arxiv url: http://arxiv.org/abs/2606.11949v1
- Date: Wed, 10 Jun 2026 11:24:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.430498
- Title: Online Shift Detection and Conformal Adaptation for Deployed Safety Classifiers
- Title(参考訳): 配置安全分類器のオンラインシフト検出とコンフォーマル適応
- Authors: Jun Wen Leong,
- Abstract要約: デプロイされた安全分類器における分散シフトのオンラインモニタリングシステムを提案する。
検出後、共形吸収層は、目標誤差を回復する決定に適応する。
このシステムは平均遅延39.5800ステップで86.6%の検知を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an online monitoring system for distributional shift in deployed safety classifiers, using calibrated sequential statistics to detect when a classifier has moved out of distribution. Upon detection, a conformal abstention layer adapts decision thresholds to recover a target error rate epsilon=0.1. In a pre-registered factorial evaluation (4 classifiers x 5 shift conditions x 20 seeds x 2 window sizes, 800 cells), the system achieves 86.6% valid detection (693/800, 95% CI [84.1%, 88.8%]) with mean latency of 39.5 steps. Detection holds across three ground-truth regimes: synthetic onset (86.6%), real temporal jailbreaks (85%, 17/20), and GCG adversarial attacks. Weighted conformal prediction recovers up to 39 pp of lost coverage for DeBERTa (ESS=46/300) but collapses for all other classifiers (ESS~300): logistic density ratio estimation achieves perfect source/target separability in high-dimensional embedding spaces, clipping all importance weights to the floor. DeBERTa shows a gradient from effective correction (paraphrase, ESS=46) to near-total collapse (adversarial suffix, ESS=206). PCA to 32 dimensions breaks the collapse, recovering 33 pp for Llama Guard and 21 pp for ShieldGemma. Variance decomposition reveals classifier (eta^2=0.243), shift type (eta^2=0.237), and their interaction (eta^2=0.185) all contribute substantially to detection latency variance (all p<0.001), indicating per-classifier monitoring profiles are necessary.
- Abstract(参考訳): 本稿では,デプロイされた安全分類器の分布シフトをオンライン監視するシステムについて,分類器がいつ分布から移動したかを検出するために,キャリブレーションされたシーケンシャル統計を用いた。
検出されると、共形吸収層が判定しきい値に適応して、目標誤差率epsilon=0.1を回復する。
事前登録された因子評価(4分類器 x 5 シフト条件 x 20 シード x 2 ウィンドウサイズ 800 セル)では、平均遅延39.5 ステップで 86.6% の有効な検出(693/800,95% CI [84.1%, 88.8%])を達成している。
検出は、合成オンセット(86.6%)、リアルタイムジェイルブレイク(85%、17/20)、GCG敵攻撃の3つの地道な体制にまたがる。
重み付き共形予測はDeBERTa(ESS=46/300)の39ppの損失範囲を回復するが、他のすべての分類器(ESS~300)では崩壊する。
DeBERTaは、有効修正( ESS=46)からほぼ全滅( ESS=206)への勾配を示す。
PCAから32次元は崩壊を破り、ラマガードは33pp、シールドジェマは21pp回復した。
ばらつき分解は、分類器(eta^2=0.243)、シフト型(eta^2=0.237)、およびそれらの相互作用(eta^2=0.185)が、検出遅延分散(all p<0.001)に大きく寄与し、分類器ごとの監視プロファイルが必要であることを示す。
関連論文リスト
- Layer-Isolated Evaluation: Gating the Deterministic Scaffold of a Production LLM Agent with a No-LLM, Regression-Locked Test Harness [45.148328075418156]
デプロイされた注文エージェントは、階層の固定された分類に分解される。
純粋なスイートは、ロックされたスライス単位のベースラインに対して、すべての変更でCIで動作する。
制御されたレグレッションインジェクションにより、安全でない7つの層に一度に1つの層を分解し、検証する。
論文 参考訳(メタデータ) (2026-06-10T05:55:13Z) - Alignment Collapse Under KV Cache Quantization: Diagnosis and Mitigation [6.129872931808218]
キー値(KV)キャッシュの量子化は、Large Language Model(LLM)推論メモリの削減に広く利用されている。
本研究では,KVキャッシュ量子化下でのアライメント保存について検討する。
低ビット量子化は安全アライメントを静かに破壊することができる。
論文 参考訳(メタデータ) (2026-06-01T02:02:20Z) - Send a SCOUT First: Pre-hoc Reasoning for Adaptive Detector Allocation in Prompt-Injection Defense [37.10272384523361]
我々は、各検出器のサンプルごとの信頼性と遅延を、同様の過去の入力に対する動作から予測するためのフレームワークを開発する。
SCOUT-450は、古いプロンプトインジェクションが表現下にある構造的に複雑でエージェント対応のインジェクションをキャプチャするベンチマークである。
SCOUT-450では、安全指向の動作点が攻撃発生率を46%減らし、壁時計全体の40%減らした。
論文 参考訳(メタデータ) (2026-05-29T04:49:20Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - Distribution-Free Uncertainty Quantification for Continuous AI Agent Evaluation [1.2299000423193074]
我々は、連続AIエージェント評価に分割共形予測と適応共形推論を適用した。
その結果, 年齢ごとの条件付きカバレッジは, 名目レベルを中心に, 十分に集中していることがわかった。
円形制御されたバリデーションにより、フレームワークはベンチマークを超えて信号をキャプチャする。
論文 参考訳(メタデータ) (2026-05-19T12:47:21Z) - Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.0]
DASEは、ベンチマークをまたいで一般化するコミット型ルーティングパーティションを生成する。
インジェクション帯域ではなく、適応的な停止が正確さを駆動する。
インジェクションベースの手法は、逆Uの精度-vs-推論軌道を示す。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - Activation Outliers in Transformer Quantization: Reproduction, Statistical Analysis, and Deployment Tradeoffs [0.0]
変圧器のポストトレーニング量子化(PTQ)は、構造化されたアクティベーションアウトリアによる精度の低下に悩まされていることが知られている。
本稿では,QNLIで微調整されたBERTベースにおける再現可能な経験的再現と,その現象のシステムレベルの拡張について述べる。
論文 参考訳(メタデータ) (2026-03-04T17:26:29Z) - vCache: Verified Semantic Prompt Caching [95.16654660556975]
本稿では,ユーザ定義エラー率保証を備えた最初の検証済みセマンティックキャッシュであるvCacheを提案する。
オンライン学習アルゴリズムを使用して、キャッシュされたプロンプト毎に最適な閾値を推定し、追加のトレーニングなしで信頼性の高いキャッシュ応答を可能にする。
我々の実験によると、vCacheは特定のエラー境界を一貫して満たし、最先端の静的な閾値と微調整された埋め込みベースラインより優れています。
論文 参考訳(メタデータ) (2025-02-06T04:16:20Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Generalized Focal Loss: Learning Qualified and Distributed Bounding
Boxes for Dense Object Detection [85.53263670166304]
一段検出器は基本的に、物体検出を密度の高い分類と位置化として定式化する。
1段検出器の最近の傾向は、局所化の質を推定するために個別の予測分岐を導入することである。
本稿では, 上記の3つの基本要素, 品質推定, 分類, ローカライゼーションについて述べる。
論文 参考訳(メタデータ) (2020-06-08T07:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。