論文の概要: SC3: The Multi-Solvent Solubility Challenge and Benchmark
- arxiv url: http://arxiv.org/abs/2606.07656v1
- Date: Wed, 03 Jun 2026 08:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.197062
- Title: SC3: The Multi-Solvent Solubility Challenge and Benchmark
- Title(参考訳): SC3: マルチソルベント溶解度問題とベンチマーク
- Authors: Vansh Ramani, Har Ashish Arora, Dhairya Kuchhal, Sergei Tatarin, Lev Krasnov, Sayan Ranu, Tarak Karmakar,
- Abstract要約: このベンチマークはBigSolDB v2.1上に構築され、3つのコントリビューションがある。
私たちは、このギャップがテスト対象のディープな代替案によって隠されているのを観察します。
データスケーリング、量子化学溶解エネルギーからの移動、特徴レベルの帰属の3つの追従解析を行う。
- 参考スコア(独自算出の注目度): 11.51982791748735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solubility prediction is a standard benchmark in computational chemistry, yet multi-solvent models which reportedly approach the experimental-noise ceiling (i.e. the aleatoric limit) are not yet reliable enough to be deployed. We argue that this gap is partly artefactual: published benchmarks differ in curation policies, evaluate on count-weighted RMSE that hides failure on tail-heavy solvent distributions, and treat the widely cited 0.6-0.8 log S inter-laboratory figure as the aleatoric ceiling even though it reflects worst-case, not expected, disagreement. We introduce SC3, a multi-solvent solubility benchmark built on BigSolDB v2.1 with three contributions: (i) a reproducible curation pipeline yielding 101,535 measurements over 1,327 solutes and 206 solvents, with a recalibrated aleatoric floor of 0.106 log S-roughly 6 times tighter than the conventional figure; (ii) nested Gold/Silver/Bronze consensus tiers with per-point standard deviation, three leakage-checked splits, and a multi-solvent metric suite (PS-RMSE, Z-RMSE); and (iii) a 31-model benchmark across six families, whose best Bronze PS-RMSE sits at 5 times the aleatoric limit, and we observe this is a gap unclosed by any deep alternative tested. We perform three follow-on analyses: data scaling, transfer from quantum-chemistry solvation energies, and feature-level attribution, which demonstrates that calibrated per-point uncertainty is a reusable infrastructure for diagnosis beyond point prediction.
- Abstract(参考訳): 可溶性予測は計算化学の標準ベンチマークであるが、実験ノイズ天井(すなわちアレタリック限界)に近づいていると伝えられるマルチ溶媒モデルは、まだ展開するのに十分な信頼性を持っていない。
我々はこのギャップが部分的には事実であると主張する: 発行されたベンチマークは、キュレーションポリシーの違い、尾重溶媒分布に障害を隠蔽する数重のRMSEの評価、そして広く引用されている0.6-0.8ログSを、予想外の最悪のケースを反映したとしても、アレタリック天井として扱う。
BigSolDB v2.1上に構築されたマルチ溶媒溶解度ベンチマークであるSC3を紹介します。
(i)1,327の溶質及び206の溶剤を101,535回測定した再現性硬化パイプラインであって、従来の図より約6倍密なレラトニックフロア0.106のレラトリックフロアを有する。
(二)点ごとの標準偏差、リークチェックスプリット3つ、マルチ溶媒計量スイート(PS-RMSE、Z-RMSE)を有するネストされた金/銀/銅のコンセンサス層、及び
3) 6つの家系を対象とした31モデルベンチマークを行い、最も優れたBronze PS-RMSEは、アレータリック限界の5倍に設定されている。
データスケーリング、量子化学溶解エネルギーからの移動、特徴レベルの属性という3つのフォローオン分析を行い、ポイントごとの不確実性がポイント予測を超えた診断のための再利用可能なインフラであることを実証した。
関連論文リスト
- Design and Evaluation of Multi-Agent AI Oracle Systems for Prediction Market Resolution [0.0]
予測市場は、不確実な出来事を予測するために集合的なインテリジェンスを集約する。
既存のオラクルシステムは、高速だが不安定な自動化と、正確だがコストのかかる人間の仲裁とをトレードオフする。
マルチエージェントLLMアーキテクチャが単一モデルベースラインよりもオラクル分解能を向上できるかどうかを評価する。
論文 参考訳(メタデータ) (2026-05-29T03:44:19Z) - CHRONOS: Temporally-Aware Multi-Agent Coordination for Evolving Data Marketplaces [3.252472808549431]
時間的知識グラフデータ市場は、静的設計において3つの結合した失敗に直面している。
我々は,これらの課題を一元的に扱える3層アーキテクチャであるChronosを紹介した。
論文 参考訳(メタデータ) (2026-05-22T17:47:45Z) - Distributional Energy-Based Models for Uncertainty-Aware Structured LLM Reasoning [40.342912574072024]
大規模言語モデルは、旅行計画やコードソリューションのような構造化されたアウトプットを生成する。
個々の推論ステップは正しく見えるが、アウトプット全体が予算に違反したり、テストケースに失敗したり、あるいは以前の推論に矛盾することがある。
構造化LCM出力の検証のための決定論的解析制約付き学習品質スコアラを提案する。
論文 参考訳(メタデータ) (2026-05-15T17:08:27Z) - Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks [45.86413490112477]
大規模言語モデル(LLM)は信頼性に敏感なアプリケーションで使用される。
厳密な信頼境界を持つ稀な失敗確率を推定するには、違法に大きなLSM推論サイズが必要である。
そこで本研究では,クロスエントロピー手法を用いて,故障確率入力に集中したサンプリング分布を学習する。
論文 参考訳(メタデータ) (2026-05-11T20:23:44Z) - HEOM-in-Calibration-Loop: Exposing Non-Markovian Bath Signatures That Markovian Calibration Elides in Superconducting-Qubit Tune-Up [2.3774562616857717]
我々は、Tier-1/f Burkardバスで駆動されるQuTiP 5.x階層型運動方程式をマルチプロトコールキャリブレーションDAGに統合する。
パルスレベルシミュレータの凍結プラットフォーム上で, セゾルデとメゾルデとを比較した。
論文 参考訳(メタデータ) (2026-04-23T09:15:13Z) - Diffusion-MPC in Discrete Domains: Feasibility Constraints, Horizon Effects, and Critic Alignment: Case study with Tetris [0.0]
本研究では,テトリスをケーススタディとして,拡散モデル予測制御(拡散MPC)を個別領域で検討した。
我々のプランナーは、MaskGITスタイルの離散デノイザを用いて候補配置シーケンスをサンプリングし、再ランク付けによりアクションを選択する。
本研究では,(1)有効配置に対するロジットマスキングによる実現可能性に制約のあるサンプリング,(2)スコアを用いた戦略の再評価,事前訓練されたDQN批判,およびハイブリッド組み合わせ,(3)候補数と計画の地平線におけるスケーリングの計算,の3つの要因を分析した。
論文 参考訳(メタデータ) (2026-03-02T19:35:38Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Detecting Unobserved Confounders: A Kernelized Regression Approach [46.52607207396279]
Kernel Regression Confounder Detection (KRCD) は、単一環境下での非線形観測データにおける観測不能なコンバウンディングを検出する新しい方法である。
ゼロからの有意な偏差が観測不能な共起を示すテスト統計学。
合成ベンチマークとツインズデータセットの実験は、KRCDが既存のベースラインを上回るだけでなく、計算効率も優れていることを示した。
論文 参考訳(メタデータ) (2026-01-01T04:26:02Z) - Causal Judge Evaluation: Calibrated Surrogate Metrics for LLM Systems [0.29465623430708904]
未校正スコアは選好を逆転させることができ、未校正スコアに対するナイーブな信頼区間は、ほぼ0%のカバレッジを獲得し、重要度重み付け推定器は、限られた重複の下で崩壊する。
3つの障害を全て解決するフレームワークであるCausal Judge Evaluationを紹介します。
論文 参考訳(メタデータ) (2025-12-11T22:16:24Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Distribution-free binary classification: prediction sets, confidence
intervals and calibration [106.50279469344937]
分布自由条件における二項分類のための不確実性定量化(キャリブレーション、信頼区間、予測セット)の3つの概念について検討する。
固定幅と一様質量の両双対の双対確率に対する信頼区間を導出する。
我々の「三脚」定理の結果として、双有理確率に対するこれらの信頼区間は分布自由キャリブレーションに繋がる。
論文 参考訳(メタデータ) (2020-06-18T14:17:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。