論文の概要: A machine-learning-assisted progressive digit-randomness screening framework for detecting non-random patterns in raw numerical research data
- arxiv url: http://arxiv.org/abs/2606.07128v1
- Date: Fri, 05 Jun 2026 10:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-08 14:33:29.693794
- Title: A machine-learning-assisted progressive digit-randomness screening framework for detecting non-random patterns in raw numerical research data
- Title(参考訳): 素数値データにおける非ランダムパターン検出のための機械学習支援プログレッシブ桁ランダムスクリーニングフレームワーク
- Authors: Zhuphua Cao,
- Abstract要約: ファブリケーションリスク・ディジット・ランダムネス・スクリーニング・モデル(FDRS)は、数値的な研究データから非ランダムな桁パターンの不規則を検出するためのフレームワークである。
FDRSはシングルおよびジョイント・ディシマル・ディジット・テスト、クラマーのV、エントロピー・メトリクス、カルバック・リーブラーの発散、ディジット・プレフレクションの指標、プログレッシブ・サブサンプリング、半教師付きリスクスコアを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Raw numerical datasets remain less systematically examined in integrity screening than images, plagiarism, or summary-statistic inconsistencies. We developed the Fabrication-risk Digit Randomness Screening model (FDRS), a statistical and machine-learning framework for detecting non-random digit-pattern irregularities in numerical research data. FDRS integrates single- and joint-decimal-digit tests, Cramer's V, entropy metrics, Kullback-Leibler divergence, digit-preference indices, progressive subsampling, and semi-supervised risk scoring. It was evaluated using an instrument-derived enzymatic absorbance dataset (RawData, n=253) and a blinded manually simulated irregular dataset (ErrData, n=255). RawData showed no significant deviation in single third-decimal-digit analysis, whereas ErrData showed a significant deviation. In joint third-fourth decimal digit analysis, ErrData showed higher Cramer's V, lower normalized entropy, higher KL divergence, and a more persistent progressive-subsampling deviation signal. In internal validation, Elastic-net Logistic Regression achieved the highest AUC (0.98395) and lowest Brier score (0.048439), while Random Forest achieved the highest accuracy (0.926667) and balanced accuracy (0.935). RawData received a low ensemble risk score of 0.124627 and was classified as Grade 0; ErrData received a score of 0.740760 and was classified as Grade 3. External real-world benchmarks supported graded risk stratification: three datasets without identified public post-publication concerns were classified as Grade 0 or 1, whereas two datasets from publicly questioned or institutionally handled articles were classified as Grade 2 or 3. FDRS can prioritize raw numerical datasets for further review by integrating interpretable statistical and machine-learning features. It is an auxiliary digit-structure screening tool, not standalone evidence of fabrication or misconduct.
- Abstract(参考訳): 初期の数値データセットは、画像、プラジャリズム、または要約統計の不整合よりも、整合性スクリーニングにおいて体系的に調べられていない。
数値的な研究データから非ランダムな桁パターンの不規則を検出するための統計的および機械学習フレームワークであるFDRS(Producement-risk Digit Randomness Screening Model)を開発した。
FDRSはシングルおよびジョイント・ディシマル・ディジット・テスト、クラマーのV、エントロピー・メトリクス、カルバック・リーブラーの発散、ディジット・プレフレクションの指標、プログレッシブ・サブサンプリング、半教師付きリスクスコアを統合している。
楽器由来の酵素吸収データセット(RawData, n=253)とブラインドした手動不規則データセット(ErrData, n=255)を用いて評価した。
また,RawDataは3桁連続解析では有意差を認めなかったが,ErrDataは有意差を認めなかった。
第3次十進数解析では, クレーマーVの上昇, 正常化エントロピーの低下, KLの偏差の増大, プログレッシブ・サブサンプリングの偏差信号の持続性を示した。
内部検証では、Elastic-net Logistic Regressionは最高AUC(0.98395)と最低Brierスコア(0.048439)を達成し、Random Forestは最高精度(0.926667)と平衡精度(0.935)を達成した。
RawDataは低いアンサンブルリスクスコア0.124627、グレード0、ErrDataは0.740760、グレード3に分類された。
公開後の懸念が特定されていない3つのデータセットはグレード0または1に分類され、公的な疑問または制度的に扱われた2つのデータセットはグレード2または3に分類された。
FDRSは、解釈可能な統計的特徴と機械学習機能を統合することで、さらなるレビューのために生の数値データセットを優先順位付けすることができる。
補助的なデジタル構造スクリーニングツールであり、製造や不正行為のスタンドアロンの証拠ではない。
関連論文リスト
- Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - RoCA: Robust Contrastive One-class Time Series Anomaly Detection with Contaminated Data [19.25420308920505]
正規性仮定に基づく手法は3つの制限に直面している。
彼らの基本的な前提は、トレーニングデータが汚染されていない(異常がない)ことである。
本稿では,上記の3つの課題に最初に対処した,新しい堅牢なアプローチであるRoCAを提案する。
論文 参考訳(メタデータ) (2025-03-24T06:52:28Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Imbalanced Aircraft Data Anomaly Detection [103.01418862972564]
航空シナリオ下でのセンサーからの時間データの異常検出は実用的だが難しい課題である。
本稿では,グラフィカル・テンポラル・データ分析フレームワークを提案する。
シリーズ・トゥ・イメージ (S2I) と呼ばれる3つのモジュール、ユークリッド距離 (CRD) を用いたクラスタ・ベース・リサンプリング・アプローチ、変数・ベース・ロス (VBL) から構成される。
論文 参考訳(メタデータ) (2023-05-17T09:37:07Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Bootstrapping Your Own Positive Sample: Contrastive Learning With
Electronic Health Record Data [62.29031007761901]
本稿では,新しいコントラスト型正規化臨床分類モデルを提案する。
EHRデータに特化した2つのユニークなポジティブサンプリング戦略を紹介します。
私たちのフレームワークは、現実世界のCOVID-19 EHRデータの死亡リスクを予測するために、競争の激しい実験結果をもたらします。
論文 参考訳(メタデータ) (2021-04-07T06:02:04Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。