Fugu-MT 論文翻訳(概要): From Forecasting Leaderboards to Deployment Decisions: A Fail-Closed Certification Protocol

論文の概要: From Forecasting Leaderboards to Deployment Decisions: A Fail-Closed Certification Protocol

arxiv url: http://arxiv.org/abs/2606.24996v1
Date: Tue, 23 Jun 2026 15:59:17 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-25 17:05:30.086889
Title: From Forecasting Leaderboards to Deployment Decisions: A Fail-Closed Certification Protocol
Title（参考訳）: リーダボードの予測からデプロイメント決定へ - 失敗に終わった認定プロトコル
Authors: Geumyoung Kim,
Abstract要約: 予測側勝者が特定のインターフェースとデプロイユーティリティに対してデプロイ操作可能であることをいつ証明できるかを検討する。 Traffic-Hourlyは認証アンカーを提供する: 勝者は摩擦ゼロで同意するが、肯定的な切り替え摩擦により、予測勝者は準最適に配置される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Forecasting leaderboards rank models by predictive quality, but their winners are often read as deployment-ready top-1 advice. That reading can fail when forecasts are passed through a fixed decision interface, such as an alert threshold, a top-k budget, or a switching-cost policy. We study when a forecast-side winner can be certified as deployment-actionable for a specified interface and deployed utility. We introduce a fail-closed certification protocol whose gates are sufficient evidential conditions for a strong claim: a friction-caused, non-tie, statistically supported, and recurrent deployment-side reversal. Traffic-Hourly provides a certified anchor: winners agree at zero friction, but positive switching friction makes the forecast winner deployed-suboptimal. A locked native audit tests overclaiming: across 22 verified candidates and 362 full-grid cells, 155 apparent forecast/deployment winner inversions are blocked before certification. The contribution is not a new forecaster, metric, or universal utility, but a conservative protocol for deciding when forecasting leaderboard winners should be read as deployment-actionable top-1 advice.
Abstract（参考訳）: リーダボードの予測は予測品質でモデルをランク付けするが、その勝者はしばしば、デプロイメント対応のトップ1アドバイスとして読まれる。この読み込みは,警告しきい値やトップk予算,スイッチングコストポリシなど,一定の決定インターフェースを通じて予測をパスした場合に失敗する可能性がある。予測側勝者が特定のインターフェースとデプロイユーティリティに対してデプロイ操作可能であることをいつ証明できるかを検討する。本稿では, ゲートが強いクレームの十分な明確な条件であるフェールクロース認証プロトコルを提案する。 Traffic-Hourlyは認証アンカーを提供する: 勝者は摩擦ゼロで同意するが、肯定的な切り替え摩擦により、予測勝者は準最適に配置される。認証済みの22の候補と362の完全グリッド細胞で、155の明らかな予測/デプロイの勝者インバージョンが認証前にブロックされている。このコントリビューションは、新しい予測器、メトリック、ユニバーサルユーティリティではなく、リーダーボードの勝者をいつ予測するかを決定するための保守的なプロトコルである。

関連論文リスト

RHyVE: Competence-Aware Verification and Phase-Aware Deployment for LLM-Generated Reward Hypotheses [7.123785374544969]
大規模言語モデル(LLM)は、強化学習における報酬設計をかなりスケーラブルにするが、生成された報酬は自動的に信頼性のある訓練目標ではない。本稿では,現在の政策の能力に依拠する報酬仮説として,生成した報酬を扱い,この展開時問題を考察する。我々は,有能な検証とフェーズアウェアなデプロイメントプロトコルであるtextscRHyVEを提案する。
論文参考訳（メタデータ） (2026-04-30T16:01:51Z)
Scalable and Precise Patch Robustness Certification for Deep Learning Models with Top-k Predictions [2.6499018693213316]
パッチ堅牢性認証は、敵のパッチ攻撃を防御するための新たな検証アプローチである。投票ベースで認証されたリカバリディフェンダーであるCostCertを提案する。 CostCertは、現在最先端のディフェンダーであるPatchGuardよりも大幅に優れています。
論文参考訳（メタデータ） (2025-07-31T08:31:59Z)
COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。 COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文参考訳（メタデータ） (2025-06-25T07:04:49Z)
Optimal Conformal Prediction under Epistemic Uncertainty [61.46247583794497]
コンフォーマル予測(CP)は不確実性を表すための一般的なフレームワークである。条件付きカバレッジを保証する最小の予測セットを生成するBernoulli予測セット(BPS)を導入する。 1次予測を与えられた場合、BPSはよく知られた適応予測セット(APS)に還元する。
論文参考訳（メタデータ） (2025-05-25T08:32:44Z)
Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-01-17T12:01:56Z)
Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文参考訳（メタデータ） (2024-12-24T16:51:35Z)
Right Decisions from Wrong Predictions: A Mechanism Design Alternative to Individual Calibration [107.15813002403905]
意思決定者は、しばしば不完全な確率予測に頼る必要がある。本稿では,予測ユーティリティが実際に取得したユーティリティと一致することを保証する補償機構を提案する。本研究では、乗客が飛行遅延確率に基づいて、個々の旅行計画をどのように確実に最適化できるかを示すアプリケーションを示す。
論文参考訳（メタデータ） (2020-11-15T08:22:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。