論文の概要: Computational references are not experiments: pre-registered validation of machine-learned sodium-cathode voltages
- arxiv url: http://arxiv.org/abs/2606.23725v1
- Date: Fri, 19 Jun 2026 07:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.569742
- Title: Computational references are not experiments: pre-registered validation of machine-learned sodium-cathode voltages
- Title(参考訳): 計算基準は実験ではない:機械学習型ナトリウム陰極電圧の事前登録による検証
- Authors: Krishna Teja Vepa,
- Abstract要約: バッテリー材料の機械学習画面は、ほぼ完全に計算された基準電圧に対して訓練される。
先行技術により、ターゲットのNa置換空間の少なくとも70%が既に公開された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-learning screens for battery materials are trained and judged almost entirely against computed reference voltages, and those references carry their own systematic errors. We report a case in which this matters quantitatively: our own screening stack (a graph-network voltage screen, a prior-art triage layer, and a local PBE+U bench) fails pre-registered validation against experiment-anchored literature values. Verdict thresholds, failure modes, and the primary metric were committed before analysis. On an operator-audited set of known Na-ion cathodes (n = 6 after one documented exclusion; verdict unchanged at n = 7), the raw held-out mean absolute error was 0.67 V, the pre-registered conservative metric, the upper 95% confidence bound of the cross-validated bias-corrected error, was 1.09 V, and the residual was strongly voltage-dependent (r = -0.94), so no additive calibration is valid. On the two compounds where prediction, database reference, and experiment could all be compared, the Materials Project PBE+U reference sat about 0.54 V below measurement: the reference, not the model, dominated the error. A prior-art screen found at least 70% of the targeted Na substitution space already published. We retire the screen, bound what "verified" means for our DFT ledger, and pre-register a calibration audit of it against four benchmark Li couples.
- Abstract(参考訳): バッテリー材料の機械学習画面は、ほぼ完全に計算された基準電圧に対して訓練され、判断される。
筆者ら自身のスクリーニングスタック(グラフネットワーク電圧画面、先行技術トリアージ層、ローカルPBE+Uベンチ)は、実験によって得られた文献値に対する事前登録の検証に失敗する。
評価しきい値、障害モード、主要なメトリクスは分析の前にコミットされた。
既知のNaイオン陰極(n = 6, n = 7)の演算子による検定では、元の保留平均絶対誤差は0.67V、事前登録された保守的計量は95%の信頼度は1.9Vであり、残基は強い電圧依存(r = -0.94)であり、加算校正は有効ではない。
予測、データベース参照、実験がすべて比較できる2つの化合物について、材料プロジェクト PBE+U の基準は、約 0.54 V で測定された。
先行技術により、ターゲットのNa置換空間の少なくとも70%が既に公開された。
画面をリタイアし、DFT台帳の意味を「検証」し、4つのベンチマークLiカップルに対して校正監査を事前登録します。
関連論文リスト
- CaliDist: Calibrating Large Language Models via Behavioral Robustness to Distraction [51.56484100374058]
既存のLLM(Large Language Models)のキャリブレーション手法は、しばしば信頼性の重要な次元、すなわちモデルの振舞いの堅牢性を見落としている。
我々は,モデルが注意をそらす可能性を直接測定し,罰する,新しいポストホックキャリブレーション手法であるtextscCaliDistを紹介した。
textscCaliDistは、強いベースラインと比較して、期待の低いエラー(ECE)とBrier Scoreを一貫して達成します。
論文 参考訳(メタデータ) (2026-06-04T07:27:53Z) - Spiking the training data to correct for test set contamination [28.940486760749025]
そこで本研究では,テスト例を意識的に既知の速度で汚染することにより,トレーニングデータをスパイクする手法を提案する。
スパイクされた例は、インフレーションされたテストスコアの統計的補正を可能にするモデル記憶の予測器の校正に使用することができる。
論文 参考訳(メタデータ) (2026-05-24T02:06:59Z) - HBEE: Human Behavioral Entropy Engine -- Pre-Registered Multi-Agent LLM Simulation of Peer-Suspicion-Based Detection Inversion [0.0]
適応OPSECがLLMディレクティブとして実装可能な制御環境では、ピア・サスペクション・カスケード検出を反転させる。
我々は,シミュレータ,事前登録文書,凍結シナリオ,生テレメトリ,分析パイプラインをオープンソースライセンス下でリリースする。
論文 参考訳(メタデータ) (2026-05-08T09:19:21Z) - Verbal Confidence Saturation in 3-9B Open-Weight Instruction-Tuned LLMs: A Pre-Registered Psychometric Validity Screen [0.0]
実験では,7つの指導訓練付きオープンウェイトモデルを用いて,最小の妥当性基準を満たす言語的信頼度が得られるかどうかを検証した。
カテゴリー的誘因は有効性には至らなかった。
声道レベルの対数確率は,観察された分散状態下での言語的信頼度を有意に予測しなかった。
論文 参考訳(メタデータ) (2026-04-24T04:45:21Z) - The Verification Tax: Fundamental Limits of AI Auditing in the Rare-Error Regime [0.0]
最も引用されているキャリブレーションの結果は、CIFAR-100上での温度スケーリング後のECEの0.012は、統計的ノイズフロアより下である。
モデル誤差率のエプシロンによるキャリブレーション誤差を推定するミニマックスレートは Theta((Lepsilon/m)2/3) であり、推定器が打ち負かせない。
論文 参考訳(メタデータ) (2026-04-14T16:48:24Z) - GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning [0.5414847001704249]
本稿では, 汚染対応プローブ, 弱スーパービジョンガバナンス, 検索推論診断, 構造化エラー属性を統合する軽量な評価プロトコルを提案する。
我々は16GBのGPU予算でTabFact、WTQをSquall、TableBench、RobuT、SciTabで評価した。
論文 参考訳(メタデータ) (2026-01-22T13:56:19Z) - Can We Predict Before Executing Machine Learning Agents? [74.39460101251792]
データ中心のソリューション優先のタスクを形式化し、18,438対比較の包括的コーパスを構築する。
検証データ解析レポートを作成した場合, LLM は重要な予測能力を示すことを示す。
このフレームワークをForEAGENT(Predict-then-Verifyループを利用するエージェント)でインスタンス化し、実行ベースラインを+6%超えながらコンバージェンスを6倍高速化する。
論文 参考訳(メタデータ) (2026-01-09T16:44:17Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - Sequential Kernelized Independence Testing [77.237958592189]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。
シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文 参考訳(メタデータ) (2022-12-14T18:08:42Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。