論文の概要: SCOPE: Sequential Conformal Probing for Reliable OOD Rejection in LLM Services
- arxiv url: http://arxiv.org/abs/2606.21255v1
- Date: Fri, 19 Jun 2026 09:31:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 07:02:54.993938
- Title: SCOPE: Sequential Conformal Probing for Reliable OOD Rejection in LLM Services
- Title(参考訳): SCOPE:LLMサービスにおける信頼性OOD除去のための逐次コンフォーマルプローブ
- Authors: Zhuoyun Li, Boxuan Wang, Changshun Wu, Xiaowei Huang, Yi Dong,
- Abstract要約: SCOPE(Sequential Conformal OOD Probing and Evaluation)は、可読性のある隠蔽層を選択し、IND校正による共形ゲートを構築するフレームワークである。
複数のLCMバックボーンと6つの慎重に設計された境界条件による実験は、SCOPEが標準の最終層検出器よりもゲートレベルの拒絶を改善することを示している。
- 参考スコア(独自算出の注目度): 13.919652218342023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rejecting inputs outside the defined in-distribution (IND) service scope is critical for large language model (LLM) services, where unsupported requests should be filtered before full generation. Existing out-of-distribution (OOD) detectors often rely on final outputs or final-layer representations, leaving unclear where service-boundary signals are most clearly encoded inside the model; they also lack a theoretical guarantee for held-out inputs. In this paper, we introduce SCOPE (Sequential Conformal OOD Probing and Evaluation), a framework that selects a readable hidden layer, constructs a conformal gate with IND calibration, and uses a supermartingale e-process to certify persistent service-boundary evidence. Experiments across multiple LLM backbones and six carefully designed boundary conditions show that SCOPE improves gate-level rejection over standard final-layer detectors, while revealing how different OOD boundaries take different geometric forms in hidden space.
- Abstract(参考訳): 定義済みのIn-distriion(IND)サービススコープの外でインプットをリジェクトすることは、大きな言語モデル(LLM)サービスにとって重要なことです。
既存のアウト・オブ・ディストリビューション(OOD)検出器は最終的な出力や最終層表現に依存しており、サービス境界信号がモデル内で最も明確にエンコードされているかは不明である。
本稿では,可読な隠蔽層を選択するフレームワークであるSCOPE(Sequential Conformal OOD Probing and Evaluation)について紹介する。
複数のLDMバックボーンと6つの慎重に設計された境界条件による実験は、SCOPEが標準の最終層検出器に対するゲートレベルの拒絶を改善し、異なるOOD境界が隠れ空間で異なる幾何学的形状を取ることを明らかにしている。
関連論文リスト
- AnchorMoE: Interpretable Time Series Classification via Anchor-Routed MoE [51.994752158953084]
AnchorMoEは、解釈可能な構成別分類フレームワークである。
ローカルパッチのマルチビュー表現をエンコードし、専門の専門家にルーティングする。
実世界のベンチマークと合成ベンチマークの実験は、AnchorMoEが非常に競争力のある分類性能を達成することを示した。
論文 参考訳(メタデータ) (2026-06-02T13:30:54Z) - Acceptance-Test-Driven Evaluation Protocols for Business-Centric LLM Systems [0.8557392136621891]
本稿では,受入テスト駆動型開発を基礎とした運用型大規模言語モデル(LLM)システムに対する評価プロトコール拡張に寄与する。
利害関係者の目標を、実行可能行動契約、リリースゲート、監視信号、エビデンスアーティファクトに翻訳し、プロンプト、モデル、検索、エージェントの変更が受け入れられる。
このコントリビューションは、ガバナンス指向のメトリックスタック、リファレンスアーキテクチャ、そして、アクセプションテスト駆動のLCM開発を、アクセプションファーストとベンチマークアフターに比較するための経験的なプロトコルである。
論文 参考訳(メタデータ) (2026-06-01T18:21:10Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Polysemantic Dropout: Conformal OOD Detection for Specialized LLMs [35.326974180503065]
特殊大言語モデル(LLM)のための新しい推定時間外ドメイン検出アルゴリズムを提案する。
LLMの多意味性と冗長性に関する最近の知見により、ドメイン内入力はOOD入力よりも高いドロップアウト耐性を示すと仮定した。
有効なアンサンブルアプローチにより,複数の層にまたがるドロップアウト耐性を集約し,ICADの理論的誤報境界を維持しつつ検出を改善した。
論文 参考訳(メタデータ) (2025-09-04T20:50:51Z) - Normalized Attention Guidance: Universal Negative Guidance for Diffusion Models [57.20761595019967]
注意空間にL1をベースとした正規化・精細化を施した,効率的かつトレーニング不要な機構である正規化注意誘導(NAG)を提案する。
NAGは、CFGが忠実性を維持しながら崩壊する効果的な負のガイダンスを復元する。
NAGはアーキテクチャ(UNet、DiT)、サンプリングレシスタンス(複数ステップ、複数ステップ)、モダリティ(イメージ、ビデオ)をまたいで一般化する
論文 参考訳(メタデータ) (2025-05-27T13:30:46Z) - Non-Linear Outlier Synthesis for Out-of-Distribution Detection [5.019613806273252]
本稿では,拡散モデル埋め込み空間で直接操作することで,合成外乱器の品質を向上させるNCISを提案する。
これらの改良により,標準的な ImageNet100 および CIFAR100 ベンチマークにおいて,最先端の OOD 検出結果が得られた。
論文 参考訳(メタデータ) (2024-11-20T09:47:29Z) - Semantic or Covariate? A Study on the Intractable Case of Out-of-Distribution Detection [70.57120710151105]
ID分布のセマンティック空間をより正確に定義する。
また,OOD と ID の区別性を保証する "Tractable OOD" の設定も定義する。
論文 参考訳(メタデータ) (2024-11-18T03:09:39Z) - BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards [43.86118338226387]
LLMセーフガード評価ベンチマーク(BELLS)について紹介する。
BELLSは構造化されたテストのコレクションで、確立された障害テスト、新しい障害テスト、次世代アーキテクチャテストの3つのカテゴリに分けられる。
私たちは、データセットのインタラクティブな可視化とともに、MACHIAVELLI環境を使用して、最初の次世代アーキテクチャテストを実装し、共有します。
論文 参考訳(メタデータ) (2024-06-03T14:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。