論文の概要: Speculative Decoding at Temperature Zero: A Scoped Safety-Invariance Screen with a 48,072-Sample Expansion
- arxiv url: http://arxiv.org/abs/2606.25097v1
- Date: Tue, 23 Jun 2026 19:06:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.121837
- Title: Speculative Decoding at Temperature Zero: A Scoped Safety-Invariance Screen with a 48,072-Sample Expansion
- Title(参考訳): 温度ゼロでの投機的復号:48,072サンプル展開のスコープ型安全不変スクリーン
- Authors: Sahil Kadadekar,
- Abstract要約: 投機的復号化は、ターゲットモデルを検証するためのトークンをドラフトモデルに提案させることで推論を加速する。
温度0では、ドラフトサイドの動作が安全マークの出力に漏れる可能性があることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speculative decoding accelerates inference by letting a draft model propose tokens for a target model to verify, raising a concrete safety question: at temperature zero, can draft-side behavior leak into safety-scored outputs? We answer with Typical-Acceptance Invariance Screen (TAIS), a behavioral-equivalence screen that pairs target-only and speculative outputs on the same safety battery and requires byte-identity evidence, TOST equivalence at +/-3pp, and per-task Cohen's h below a calibrated null cutoff of |h| < 0.1. Applied to a 16,783-sample confirmatory core plus 44,066 matched expansion samples (fp16/bf16 execution, canonical and DPO-adversarial drafts, GPTQ-4bit drafts, two seeds, and four safety benchmarks), the tested temperature-zero vLLM stacks show no detectable safety divergence under TAIS. The largest absolute Cohen's h on matched target-only versus speculative refusal is 0.024, roughly an order of magnitude below the conventional trivial-effect floor; 25 of 27 per-task TOST contrasts pass at the +/-3pp margin (the two non-pass contrasts are capability-domain Wald-CI edge cases at identical ceiling rates, not genuine non-equivalence); the DPO-adversarial draft produces byte-identical output to the canonical draft across 4,006 samples; and bf16 changes 36%-53% of output bytes without moving any per-task safety rate outside equivalence. A separate 4,006-sample 70B production-scale probe, which lacks a matched 70B target-only arm and is therefore not counted as a TAIS pass, produces AdvBench refusal 0.839 over 700 AdvBench completions with 95% Wilson CI [0.809, 0.864]. We make no claim about sampling temperatures, untested frameworks, untested model families, or tree-speculation variants such as EAGLE and Medusa.
- Abstract(参考訳): 投機的復号化は、ターゲットモデルに対するトークンの検証をドラフトモデルに提案させることで推論を加速させ、具体的な安全性の疑問を提起する。
ターゲットのみと投機的出力を同一の安全バッテリ上でペアリングし,バイト同一性証拠,+/-3ppでのTOST同値性,および |h| < 0.1 の校正ヌルカットオフ以下でのタスクごとのコーエンhを求める行動等価性画面である,Sally-Acceptance Invariance Screen (TAIS) で回答する。
16,783サンプルの確認コアと44,066個のマッチした拡張サンプル(fp16/bf16の実行、標準およびDPO対応ドラフト、GPTQ-4bitドラフト、2つのシード、および4つの安全性ベンチマーク)に適用すると、テストされた温度ゼロのvLLMスタックはTAIS下での安全性のばらつきを示さない。
マッチしたターゲットのみと投機的拒絶に対する最大の絶対的なコーエンのhは0.024であり、従来の自明なフロアよりも大まかに低い27のTSTの25のコントラストは+/-3ppのマージンで通過する(2つの非パスコントラストは機能領域のWald-CIエッジケースであり、真の非等価性ではない)。
個別の4,006サンプル70B生産規模のプローブは70B目標アームにマッチせず、TAISパスにはカウントされないため、95% Wilson CI [0.809, 0.864] で700回のAdvBench完了に対してAdvBenchの拒絶率 0.839 を発生させる。
サンプル温度、未テストフレームワーク、未テストモデルファミリー、EAGLEやMedusaのような木仕様のバリエーションについては何も主張していません。
関連論文リスト
- From CVE to CWE: Syscall-Based HIDS Generalisation [41.99844472131922]
運用環境では、ディフェンダーは既知の脆弱性の新たなエクスプロイトを認識する必要がある。
我々は,CWE(Common Weaknession)クラスを共有するCVEの正常な動作に基づいて訓練された一級異常検知器が,同一クラス内の別の未知のCVEに一般化するか否かを実証的に検証した。
論文 参考訳(メタデータ) (2026-06-21T16:34:39Z) - Send a SCOUT First: Pre-hoc Reasoning for Adaptive Detector Allocation in Prompt-Injection Defense [37.10272384523361]
我々は、各検出器のサンプルごとの信頼性と遅延を、同様の過去の入力に対する動作から予測するためのフレームワークを開発する。
SCOUT-450は、古いプロンプトインジェクションが表現下にある構造的に複雑でエージェント対応のインジェクションをキャプチャするベンチマークである。
SCOUT-450では、安全指向の動作点が攻撃発生率を46%減らし、壁時計全体の40%減らした。
論文 参考訳(メタデータ) (2026-05-29T04:49:20Z) - Amplifying, Not Learning: Fine-Tuned AI Text Detectors Amplify a Pretrained Direction [51.56484100374058]
テキスト検出器は、事前訓練された典型軸を増幅する。
タスク監督前の生エンコーダでは、3つのアーキテクチャでNYT-vs-HC3 AUROC 0.806/0.944/0.834を達成する。
RoBERTaベースでは、生のプロジェクションは微調整を超えるが、RoBERTaベースでは、フル微調整は、試験された流線型人口の双方で生よりも識別を小さくする。
論文 参考訳(メタデータ) (2026-05-20T19:08:38Z) - RefusalBench: Why Refusal Rate Misranks Frontier LLMs on Biological Research Prompts [0.0]
厳格な拒絶率は、同じプロンプトで0.1%から94.6%である。
18のフロンティアモデルのうち9つは、バイナリーリフェールメトリクスが検出できないデュアルユース層で、ヘッジ・ブット・ヘルプ部分コンプライアンスパターンを示す。
論文 参考訳(メタデータ) (2026-05-20T09:53:31Z) - Brain-inspired spike-timing plasticity for reliable label-efficient event-camera vision [0.3823356975862005]
ローカルスパイクタイピング依存可塑性(STDP)モジュールは、GPUをサポートせずに単一のCPUスレッドで動作する。
密度勾配訓練検出器は, 勾配訓練, 密度行列乗算, 局所可塑性自由運転を建設によって組み合わせることができない。
論文 参考訳(メタデータ) (2026-05-17T22:56:16Z) - ContractBench: Can LLM Agents Preserve Observation Contracts? [9.057486468322933]
観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
論文 参考訳(メタデータ) (2026-05-17T06:37:04Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - LaTER: Efficient Test-Time Reasoning via Latent Exploration and Explicit Verification [35.08680804423239]
CoT(Chain-of- Thought)推論は、難しいタスクにおいて大きな言語モデル(LLM)を改善するが、推論コストも高くつく。
本稿では,連続潜伏空間における有界探索を最初に行う2段階のパラダイムであるLaTERを提案する。
LaTERは入力の埋め込み空間に隠された最後の層を投影し、潜伏KVキャッシュを保持し、エントロピーとモデルネイティブのストップトーケンプローブを使用していつ切り替えるかを決定する。
論文 参考訳(メタデータ) (2026-05-08T06:23:58Z) - Adaptive Consensus in LLM Ensembles via Sequential Evidence Accumulation: Automatic Budget Identification and Calibrated Commit Signals [0.0]
DASEは、ベンチマークをまたいで一般化するコミット型ルーティングパーティションを生成する。
インジェクション帯域ではなく、適応的な停止が正確さを駆動する。
インジェクションベースの手法は、逆Uの精度-vs-推論軌道を示す。
論文 参考訳(メタデータ) (2026-05-05T19:24:10Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。