論文の概要: Stop Early, Spend Less: Hidden-State Probes as a Practical Recipe for Streaming Moderation of LLM Outputs
- arxiv url: http://arxiv.org/abs/2606.10487v1
- Date: Tue, 09 Jun 2026 07:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.360463
- Title: Stop Early, Spend Less: Hidden-State Probes as a Practical Recipe for Streaming Moderation of LLM Outputs
- Title(参考訳): LLM出力のストリーミングモデレーションの実践的レシピとしての隠れた状態プローブ
- Authors: Huizhen Shu, Xuying Li, Piao Xue,
- Abstract要約: 既存のアプローチは、生成後に適用される別のモデレーションモデルに依存している。
我々は、モデレーションに必要な信号が隠蔽状態のモデルにすでに存在することを観察する。
トークンレベルの軽量プローブをトレーニングし、内部アクティベーションを直接操作します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deploying large language models in user-facing systems requires efficient output safety filtering. Existing approaches typically rely on a separate moderation model applied after generation, which doubles inference cost and only detects violations after generation completes. We observe that the signal needed for moderation is already present in the model hidden states. Based on this, we train lightweight token-level probes that operate directly on internal activations, producing per-token safety scores that can be aggregated for both offline evaluation and online intervention. The probe reuses activations from the generator and requires no additional forward pass, enabling sub millisecond per-token safety checks inside the decoding loop. A probe applied to a single mid layer recovers most decisions of a strong guard model, acting as a low cost surrogate optimized for latency rather than accuracy. In streaming settings, it can halt or modify unsafe outputs before they are fully generated, replacing end of sequence moderation with continuous token level monitoring. Compared to post hoc and streaming guard models, our method achieves orders of magnitude lower compute overhead with minimal latency cost. We also provide a practical deployment recipe, including layer selection, aggregation strategy, probing frequency, and triggering thresholds. Finally, we show that the probe linear component corresponds to a direction in residual space, enabling both detection and activation steering at negligible cost.
- Abstract(参考訳): ユーザ対応システムに大規模な言語モデルをデプロイするには、効率的な出力安全フィルタリングが必要である。
既存のアプローチは通常、生成後に適用される別のモデレーションモデルに依存しており、推論コストは2倍になり、生成完了後にのみ違反を検出する。
我々は、モデレーションに必要な信号が隠蔽状態のモデルにすでに存在することを観察する。
これに基づいて、私たちは、内部のアクティベーションを直接操作する軽量なトークンレベルのプローブをトレーニングし、オフライン評価とオンライン介入の両方に集約可能な、トークンごとの安全性スコアを生成します。
プローブはジェネレータからのアクティベーションを再利用し、追加のフォワードパスを必要としない。
単一の中間層に適用されたプローブは、強いガードモデルのほとんどの決定を回復し、精度よりもレイテンシに最適化された低コストのサロゲートとして機能する。
ストリーミング設定では、完全な生成前に安全でない出力を停止または修正することができ、シーケンスのモデレーションの終了を継続的なトークンレベル監視に置き換える。
ポストホックおよびストリーミングガードモデルと比較して,本手法は低レイテンシで計算オーバーヘッドを桁違いに低減する。
また、レイヤ選択、集約戦略、探索頻度、トリガーしきい値を含む、実用的なデプロイメントレシピも提供します。
最後に, プローブの線形成分が残留空間の方向に対応することを示し, 検出とアクティベーションの双方を無視可能なコストで操舵できることを示した。
関連論文リスト
- Caught in the Act(ivation): Toward Pre-Output and Multi-Turn Detection of Credential Exfiltration by LLM Agents [0.0]
出力トークンが出力される前に,アクティベーションプローブがクレデンシャルアクセスを検出できるかどうかを検討する。
第3に,マルチターンフィルタを累積情報フロー問題として扱う。
その結果、クレデンシャル・エミッション・ディフェンスは、事前出力監視、カナリア検出、時間的漏洩会計を併用すべきであることが示唆された。
論文 参考訳(メタデータ) (2026-06-02T18:53:17Z) - Refusal Before Decoding: Detecting and Exploiting Refusal Signals in Intermediate LLM Activations [18.44975629076816]
その結果, 出力発生前の中間アクティベーションで安全関連挙動が表現されることが示唆された。
本稿では,全モデル適合度評価を部分的に前進パスに置き換え,遺伝的プロンプト探索ループ内でプローブベースのスコアリングを行う,プローブ誘導型AutoDANについて紹介する。
論文 参考訳(メタデータ) (2026-05-27T14:44:36Z) - ECoLAD: Deployment-Oriented Evaluation for Automotive Time-Series Anomaly Detection [1.7751300245073598]
時系列異常検出器は、制約のない実行下で、ワークステーションクラスのハードウェアで一般的に比較される。
しかし、車内監視は、限られたCPU並列性の下で予測可能なレイテンシと安定した動作を必要とする。
本稿では,プロプライエタリな自動車テレメトリに関する実証的研究として,デプロイ指向評価プロトコルであるECoLADを提案する。
論文 参考訳(メタデータ) (2026-03-11T16:08:56Z) - A BERTology View of LLM Orchestrations: Token- and Layer-Selective Probes for Efficient Single-Pass Classification [2.0069888187253615]
生産LLMシステムは、安全と他の分類の重いステップのために、しばしば別々のモデルに依存している。
代わりに、私たちはLLMによって既に支払われた計算を再利用し、隠れた状態の軽量プローブを訓練し、生成に使用する同じ前方パスでラベルを予測する。
論文 参考訳(メタデータ) (2026-01-19T18:40:29Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Adaptive t Design Dummy-Gate Obfuscation for Cryogenic Scale Enforcement [0.0]
クラウド量子サービスは、スケジューラメタデータ、レイテンシパターン、共テナント干渉を通じて、回路構造とタイミングを明らかにすることができる。
我々は,ゲートモデルワークロードの運用上のプライバシを強制するスケジューリングおよび難読化スタックであるNADGOを紹介する。
低温CMOS制御による4キュービット超伝導タイルの試作を行い,深度可変ローカルランダム回路と小型QAOAインスタンスの両特性について検討した。
論文 参考訳(メタデータ) (2025-08-31T12:12:48Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Adaptive Low-Pass Filtering using Sliding Window Gaussian Processes [71.23286211775084]
ガウス過程回帰に基づく適応型低域通過フィルタを提案する。
本研究では,提案手法の誤差が一様境界であることを示す。
論文 参考訳(メタデータ) (2021-11-05T17:06:59Z) - Bandit Quickest Changepoint Detection [55.855465482260165]
すべてのセンサの継続的な監視は、リソースの制約のためにコストがかかる可能性がある。
有限パラメータ化確率分布の一般クラスに対する検出遅延に基づく情報理論の下界を導出する。
本稿では,異なる検知オプションの探索と質問行動の活用をシームレスに両立させる,計算効率のよいオンラインセンシング手法を提案する。
論文 参考訳(メタデータ) (2021-07-22T07:25:35Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。