Fugu-MT 論文翻訳(概要): Crossing the Validation Crisis: Cross-Validation Reduces Benchmarking Variance Surprisingly Well

論文の概要: Crossing the Validation Crisis: Cross-Validation Reduces Benchmarking Variance Surprisingly Well

arxiv url: http://arxiv.org/abs/2606.12552v1
Date: Wed, 10 Jun 2026 18:03:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-12 15:55:27.393671
Title: Crossing the Validation Crisis: Cross-Validation Reduces Benchmarking Variance Surprisingly Well
Title（参考訳）: 検証の危機を乗り越える - クロスバリデーションは突然、ベンチマークの変数をうまく削減する
Authors: Célestin Eve, Gaël Varoquaux, Thomas Moreau,
Abstract要約: 学習アルゴリズムの性能の評価・比較において,クロスバリデーションにより信頼性が著しく向上することを示す。サンプルゲインの概念を導入し、複数のクロスバリデーション分割を用いて実現した仮想データ拡張を定量化する。
参考スコア（独自算出の注目度）: 15.198198886832595
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern machine learning progresses through empirical work, benchmarking new methods to evaluate relative performance. However, the statistical variability inherent to evaluation - exacerbated by the stochastic nature of many algorithms - often makes performance estimation unreliable due to the limited test samples available, leading to a validation crisis in which genuine advances are difficult to discern. In this work, we show that cross-validation improves markedly confidence when evaluating and comparing learning algorithm performances. We introduce the concept of sample gain, which quantifies the virtual data augmentation achieved by using multiple cross-validation splits to reduce benchmarking variance. Experiments on both synthetic and real-world datasets (histopathologic scans and NLP fine-tuning) demonstrate that multiple splits can substantially improve the reliability and stability of performance estimates, with diminishing returns often setting in later than expected. We also introduce a procedure to dynamically early-stop cross-validation by estimating from the first few folds if subsequent folds will bring large sample gains. Our findings highlight the value of pushing cross-validation on available samples to achieve robust and reliable benchmarking.
Abstract（参考訳）: 現代の機械学習は経験的な作業を通じて進歩し、相対的なパフォーマンスを評価するために新しい手法をベンチマークする。しかし、多くのアルゴリズムの確率的性質によって悪化する評価に固有の統計的変動は、利用可能なテストサンプルが限られているため、しばしば性能評価を信頼できないものにし、真の進歩が識別しにくい検証の危機に繋がる。本研究では,学習アルゴリズムの性能の評価と比較において,クロスバリデーションが顕著な信頼性を向上させることを示す。サンプルゲインの概念を導入し、複数のクロスバリデーション分割を用いて仮想データ拡張を定量化し、ベンチマークのばらつきを低減する。人工的および実世界のデータセット(組織学的スキャンとNLP微調整)の実験は、複数の分割が性能推定の信頼性と安定性を大幅に改善し、期待よりも遅い時間でリターンが減少することを示した。また,後続の折り畳みが大きなサンプルゲインをもたらす場合,最初の数個の折り畳みから推定することで,動的に早期のクロスバリデーションを行う手法も導入する。本研究は, 信頼性の高いベンチマークを実現するために, 利用可能なサンプルにクロスバリデーションをプッシュする価値を強調した。

関連論文リスト

Modest-Align: Data-Efficient Alignment for Vision-Language Models [67.48633659305592]
クロスモーダルアライメントモデルは、リソース制約のある環境での運用において、過信と劣化したパフォーマンスに悩まされることが多い。我々は,ロバスト性と効率性に配慮した軽量アライメントフレームワークであるModest-Alignを提案する。本手法は,実世界の低リソースシナリオにおけるクロスモーダルアライメントを実現するための,実用的でスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2025-10-24T16:11:10Z)
Irredundant $k$-Fold Cross-Validation [0.0]
従来のk-foldクロスバリデーションでは、各インスタンスはトレーニングに1回(k-1$)、テストに1回使用されるため、冗長性が生じる。 Irredundant $k$-fold cross-validationは、各インスタンスがトレーニングに1回、テストに1回正確に使用されることを保証する新しい方法です。
論文参考訳（メタデータ） (2025-07-26T19:59:37Z)
DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文参考訳（メタデータ） (2024-09-28T15:03:28Z)
Uncertainty-Calibrated Test-Time Model Adaptation without Forgetting [65.21599711087538]
テスト時間適応(TTA)は、与えられたモデルw.r.t.を任意のテストサンプルに適用することにより、トレーニングデータとテストデータの間の潜在的な分散シフトに取り組むことを目指している。事前の手法は各テストサンプルに対してバックプロパゲーションを実行するため、多くのアプリケーションに対して許容できない最適化コストがかかる。本稿では, 有効サンプル選択基準を策定し, 信頼性および非冗長なサンプルを同定する, 効率的なアンチフォッティングテスト時間適応法を提案する。
論文参考訳（メタデータ） (2024-03-18T05:49:45Z)
Bootstrapping the Cross-Validation Estimate [5.816215734815304]
クロスバリデーションは予測モデルの性能を評価するために広く用いられている手法である。本稿では,クロスバリデーション推定の標準誤差を迅速に推定する高速ブートストラップ法を提案する。
論文参考訳（メタデータ） (2023-07-01T07:50:54Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Fast calculation of Gaussian Process multiple-fold cross-validation residuals and their covariances [0.6091702876917281]
高速離脱式を複数倍のクロスバリデーションに一般化する。単純クリグフレームワークと普遍クリグフレームワークの両方において,クロスバリデーション残差の共分散構造を強調した。本研究の結果は, 高速な多次元クロスバリデーションを可能にし, モデル診断において直接的な結果をもたらす。
論文参考訳（メタデータ） (2021-01-08T17:02:37Z)
Cross-validation Confidence Intervals for Test Error [83.67415139421448]
この研究は、クロスバリデーションのための中心極限定理と、学習アルゴリズムの弱い安定性条件下での分散の一貫した推定器を開発する。結果は、一般的な1対1のクロスバリデーションの選択にとって、初めてのものだ。
論文参考訳（メタデータ） (2020-07-24T17:40:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。