論文の概要: False Sense of Safety in Selective Signal Classification: Auditing Bound Tightness and Exchangeability for Risk Control
- arxiv url: http://arxiv.org/abs/2606.15153v1
- Date: Sat, 13 Jun 2026 06:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:32.946164
- Title: False Sense of Safety in Selective Signal Classification: Auditing Bound Tightness and Exchangeability for Risk Control
- Title(参考訳): 選択信号分類における安全性の虚偽感覚:リスク管理における境界重みと交換性の検討
- Authors: Jingwen Zhou, Mingzhe Wang,
- Abstract要約: 分布自由リスク制御による選択的な予測では、キャリブレーションドローに対する信頼度1-deltaでは、受け入れられた入力のエラー率は、ユーザ予算のアルファ値以下である。
我々はこの約束を、機械異常音検出(ASD)とAI生成画像鑑定という信号領域検出器で監査する。
- 参考スコア(独自算出の注目度): 6.3999417080764225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selective prediction with distribution-free risk control promises that, with confidence 1-delta over the calibration draw, the error rate of accepted inputs stays below a user budget alpha. We audit this promise on signal-domain detectors -- machine anomalous-sound detection (ASD) and AI-generated-image forensics -- for four calibration rules: uncertified empirical thresholding (NAIVE) and certified Hoeffding, Clopper-Pearson (CP), and betting (WSR) upper confidence bounds. We report three findings. (i) NAIVE thresholding, common in practice, exceeds its declared budget in 49-73% of synthetic trials (n=200 calibration points) and in up to 68% of real-data splits: a false sense of safety rather than a broken theorem, since the rule never had a certificate. (ii) Tightness matters: CP and WSR certify substantial coverage where Hoeffding certifies none, with zero observed budget overruns under exchangeable splits. (iii) Under grouped deployment (unseen machine types or generators), certified rules overrun in 9-30% of trials -- far above delta -- showing the failure lies in the broken exchangeability premise, not in the bounds; a conservative per-group threshold restores validity at a severe coverage cost.
- Abstract(参考訳): 分布自由リスク制御による選択的な予測では、キャリブレーションドローに対する信頼度1-deltaでは、受け入れられた入力のエラー率は、ユーザ予算のアルファ値以下である。
機械異常音検出(ASD)とAI生成画像法医学(AI-Generated-image forensics)という4つのキャリブレーションルール(未認証経験しきい値設定(NAIVE)と認証されたHoeffding, Clopper-Pearson(CP)、およびベッティング(WSR)上限)について、この約束を監査する。
我々は3つの発見を報告した。
(i)NAIVEしきい値設定は、実際は、49-73%の試験(n=200校正点)において、49-73%の予算を超過し、最大68%のリアルタイムスプリットを達成している。
CP と WSR は、Hoeffding が全く認証しない範囲を、交換可能な分割の下では、観測された予算のオーバーランがゼロである、相当な範囲を認定する。
3) グループ配置(マシンタイプやジェネレータなど)の下では、テストの9~30%でオーバーランする認定されたルール -- デルタよりもはるかに多い -- は、障害は境界ではなく交換可能性の欠如にあることを示しており、保守的なグループごとのしきい値が厳しいカバレッジコストで有効性を回復している。
関連論文リスト
- CARE: A Conformal Safety Layer for Medical Summarization [24.00849890172944]
大きな言語モデル(LLM)は、医学的な要約にますます使われている。
既存のエラー検出手法ではスコアが生成または未校正され、エラーを正しく制御することができない。
リスク評価のためのコンフォーマルアセスメント(CARE, Conformal Assessment for Risk Evaluation)を導入する。
論文 参考訳(メタデータ) (2026-06-08T03:10:45Z) - SURE-RAG: Sufficiency and Uncertainty-Aware Evidence Verification for Selective Retrieval-Augmented Generation [6.604874054866016]
本稿では,証拠満足度がセットレベル特性であることを示す,透過的なアグリゲーションプロトコルSURE-RAGを提案する。
共有ペアレベルのクレームエビデンス検証器は、SURE-RAGが集約した局所的関係分布を解釈可能な応答レベル信号に生成する。
制御されたマルチホップベンチマークであるHotpotQA-RAG v3をアーティファクト・アウェア・プロトコルで評価した。
論文 参考訳(メタデータ) (2026-05-05T09:05:40Z) - TRUST: A Framework for Decentralized AI Service v.0.1 [47.384270414446604]
大規模推論モデル (LRM) とマルチエージェントシステム (MAS) は, 信頼性の高い検証を必要とする。
TRUST(Transparent, Robust, and Unified Services for Trustworthy AI)は,3つのイノベーションを備えた分散フレームワークである。
我々は、悪質な俳優が損失を被っている間、正直な監査人の利益を確実に確保する安全利益理論を証明する。
論文 参考訳(メタデータ) (2026-04-29T19:32:58Z) - Severe Domain Shift in Skeleton-Based Action Recognition:A Study of Uncertainty Failure in Real-World Gym Environments [0.0]
本稿では,新しいGym2DデータセットとUCF101データセットを用いて,厳しい領域シフトの体系的研究を行う。
我々の研究は、標準的なデプロイメント仮定に挑戦し、セマンティックスケルトン認識と幾何学的スケルトン認識の両方のデプロイの安全性を原則として分析する。
論文 参考訳(メタデータ) (2026-03-16T17:37:17Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Conformal Lesion Segmentation for 3D Medical Images [82.92159832699583]
本稿では,データ駆動しきい値の校正をコンフォーマル化することで,テスト時間FNRが目標許容値以下であることを保証する,リスク制約付きフレームワークを提案する。
5つのバックボーンモデルにまたがる6つの3D-LSデータセット上でのCLSの統計的健全性と予測性能を検証し,臨床実践におけるリスク認識セグメンテーションの展開に関する実用的な知見を得た。
論文 参考訳(メタデータ) (2025-10-19T08:21:00Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。