論文の概要: Beyond Point Estimates: Benchmarking Uncertainty Quantification Methods on the AION-1 Astronomical Foundation Model
- arxiv url: http://arxiv.org/abs/2606.07771v1
- Date: Fri, 05 Jun 2026 18:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.386478
- Title: Beyond Point Estimates: Benchmarking Uncertainty Quantification Methods on the AION-1 Astronomical Foundation Model
- Title(参考訳): 点推定を超える: AION-1天体基礎モデルに基づく不確実性定量法ベンチマーク
- Authors: Karla Tame-Narvaez, Aleksandra Ćiprijanović, Shubhendu Trivedi,
- Abstract要約: Conformalized Quantile Regression (CQR)は、最も貧弱なモデル予測で、ビン内で最高のカバレッジを提供する。
局所的妥当性判別(Locally Valid and Discriminative, LVD)フレームワークのみが、有限サンプルの局所的妥当性を提供する。
- 参考スコア(独自算出の注目度): 47.71489969727656
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models for astronomical surveys offer powerful learned representations that can be transferred to downstream regression tasks such as galaxy property estimation. However, point predictions alone are insufficient for scientific inference; reliable uncertainty quantification (UQ) is essential. We compare seven UQ methods on galaxy property regression using frozen AION-1 foundation-model embeddings, predicting redshift, stellar mass, stellar-population age, gas-phase metallicity, and specific star-formation rate, from Legacy Survey photometry/imaging and DESI spectra, with PROVABGS-derived labels. Distribution-free conformal methods achieve marginal coverage within $\sim$1\,pp of the nominal 90\% across all properties, while non-conformal baselines (Deep Ensembles, MC~Dropout) fail to calibrate reliably. Among conformal approaches, Conformalized Quantile Regression (CQR) delivers the best coverage in the bin with the poorest model predictions. More importantly, only the Locally Valid and Discriminative (LVD) framework -- particularly when operating on AION-1 embeddings -- also provides finite-sample \emph{local validity}, producing intervals that adapt to each galaxy's local prediction difficulty rather than relying on marginal guarantees alone. These results establish conformal prediction, and LVD in particular, as the preferred UQ framework for uncertainty-aware inference on foundation-model embeddings in astrophysics.
- Abstract(参考訳): 天文学的な調査のための基礎モデルは、銀河特性推定のような下流回帰タスクに転送できる強力な学習された表現を提供する。
しかし、点予測だけでは科学的推測には不十分であり、信頼性のある不確実性定量化(UQ)が不可欠である。
我々は,レガシーサーベイ・フォトメトリー・イメージングとDESIスペクトルを用いて,凍ったAION-1基礎モデル埋め込み,赤方偏移,恒星質量,星形成年代,ガス相金属度,特定の星形成速度を予測し,銀河特性の回帰に関する7つのUQ法をPROVABGS由来のラベルと比較した。
分布のないコンフォメーション法は、すべての特性に対して90 %という名目を持つ$\sim$1\,ppの範囲で限界被覆を達成するが、非コンフォーマルなベースライン(ディープアンサンブル、MC~Dropout)は確実に校正できない。
適合したアプローチの中で、Conformalized Quantile Regression(CQR)は、最も貧弱なモデル予測で、ビン内で最高のカバレッジを提供する。
さらに重要なのは、AION-1の埋め込みで操作する場合、特にLVD(Locally Valid and Discriminative)フレームワークのみが有限サンプル \emph{local validity} を提供し、それぞれの銀河の局所的な予測困難に適応する間隔を、限界保証のみに頼るのではなく生成する。
これらの結果は共形予測を確立し、特にLVDは天体物理学における基礎モデル埋め込みに関する不確実性を考慮した推論のためのUQフレームワークとして好まれる。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Towards Anytime-Valid Statistical Watermarking [63.02116925616554]
我々は、任意の時間価推論で最適なサンプリングを統一する、最初のe-value-based watermarking frameworkであるAnchored E-Watermarkingを開発した。
本フレームワークはサンプル効率を大幅に向上させ,最先端のベースラインに対して,検出に必要な平均トークン予算を13~15%削減する。
論文 参考訳(メタデータ) (2026-02-19T18:32:26Z) - Geometry-Aware Uncertainty Quantification via Conformal Prediction on Manifolds [3.2848713528308817]
本研究では, ユークリッド残差を測地的非整合性スコアに置き換え, 異方性雑音に対処するためのクロスバリデード困難度推定器を用いて正規化する枠組みを提案する。
得られた予測領域は、球面上の測地的キャップであり、位置に依存しない領域を持ち、その大きさを局所的な予測困難に適応させ、非適応的な領域よりもはるかに均一な条件付きカバレッジをもたらす。
論文 参考訳(メタデータ) (2026-02-17T21:12:47Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - CAAL: Confidence-Aware Active Learning for Heteroscedastic Atmospheric Regression [7.951744148676244]
大気汚染の健康と気候への影響の定量化は、毒性や湿潤度といった大気中の重要な粒子の性質に依存している。
これらの性質は一般に複雑な観測技術や高価な粒子分解数値シミュレーションを必要とする。
本研究では,高効率かつ堅牢なサンプル選択のための信頼度対応能動学習フレームワーク(CAAL)を提案する。
論文 参考訳(メタデータ) (2026-02-12T11:09:58Z) - Geometric Calibration and Neutral Zones for Uncertainty-Aware Multi-Class Classification [0.0]
この研究は情報幾何学と統計的学習を橋渡しし、厳密な検証を必要とするアプリケーションにおいて不確実性を認識した分類の正式な保証を提供する。
アデノ関連ウイルスの分類に関する実証的な検証は、2段階のフレームワークが72.5%のエラーをキャプチャし、34.5%のサンプルを遅延させ、自動決定エラー率を16.8%から6.9%に下げていることを示している。
論文 参考訳(メタデータ) (2025-11-26T01:29:49Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Spatial Conformal Inference through Localized Quantile Regression [6.992239210938067]
等角予測はパラメトリックな仮定に頼ることなく有効な予測間隔を提供する。
本研究では,空間データに特化して設計された共形予測法である局所空間整形予測(L SCP)を提案する。
L SCP は既存の手法に比べて非常に厳密で一貫した予測間隔で正確なカバレッジを実現する。
論文 参考訳(メタデータ) (2024-12-02T04:15:06Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。