論文の概要: Are Tabular Foundation Models Robust to Realistic Query Distribution Shifts in Microbiome Data?
- arxiv url: http://arxiv.org/abs/2606.24995v1
- Date: Tue, 23 Jun 2026 15:52:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.086223
- Title: Are Tabular Foundation Models Robust to Realistic Query Distribution Shifts in Microbiome Data?
- Title(参考訳): Tabular Foundation Models Robust to Realistic Query Distribution Shifts in Microbiome Data?
- Authors: Giulia Perciballi, Ahmad Fall, Federica Granese, Edi Prifti, Jean-Daniel Zucker,
- Abstract要約: タブラル基礎モデル (TFMs) は, マイクロバイオーム存在量データに対して高い性能を示すが, 現実的な分布シフト下でのロバスト性は乏しい。
我々は,4つの疾患コンテキストにまたがる6つの腸内マイクロバイオームデータセットにおける生物学的にインスパイアされた摂動に対するTFMの堅牢性を評価するベンチマークを導入する。
- 参考スコア(独自算出の注目度): 2.4513329242158512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tabular foundation models (TFMs) achieve strong performance on microbiome abundance data, yet their robustness under realistic distribution shift remains poorly characterized. We introduce a benchmark that evaluates the robustness of TFMs to biologically inspired perturbations across six gut microbiome datasets spanning four disease contexts. In this in-context learning setting, models receive unperturbed support sets as context and are evaluated on perturbed query samples. To isolate robustness beyond "shortcut" features, we preserve the most discriminative taxa and apply three controlled perturbation strategies: (i) removal of high-abundance (uninformative) taxa, (ii) sparsification via increased zero-inflation, and (iii) zero-imputation via spurious non-zero injections. Our results show that protecting discriminative features is insufficient to guarantee stability under support-query shift: across datasets, all perturbations degrade model performance, with zero-imputation consistently the most harmful, indicating that corrupting global feature structure can break generalization even when key taxa are retained. Sparsification disproportionately affects TFMs relative to a classical random forest baseline, suggesting greater sensitivity to zero-inflation-type shifts. The code is publicly available at: https://github.com/UMMISCO/metagenomics-fm/.
- Abstract(参考訳): タブラル基礎モデル (TFMs) は, マイクロバイオーム存在量データに対して高い性能を示すが, 現実的な分布シフト下でのロバスト性は乏しい。
我々は,4つの疾患コンテキストにまたがる6つの腸内マイクロバイオームデータセットにおける生物学的にインスパイアされた摂動に対するTFMの堅牢性を評価するベンチマークを導入する。
このコンテキスト内学習では、モデルはコンテキストとして摂動サポートセットを受け取り、摂動クエリサンプルで評価される。
ショートカット」という特徴を超えた堅牢性を分離するために、最も差別的な分類を維持し、3つの制御された摂動戦略を適用します。
一 高度(不定形)分類群を除去すること。
(二)ゼロインフレーションの増大によるスペーサー化、及び
三 急激なノンゼロ注入によるゼロインプテーション
これらの結果から,全ての摂動がモデル性能を劣化させ,ゼロインプットが最も有害であり,キータキサを保持してもグローバルな特徴構造が破壊される可能性が示唆された。
スパシフィケーションは、古典的な無作為な森林ベースラインに対するTFMに不均等に影響を与え、ゼロ・インフレーション型シフトに対する高い感度を示唆する。
コードはhttps://github.com/UMMISCO/metagenomics-fm/.comで公開されている。
関連論文リスト
- Provable Sparse Inversion and Token Relabel Enhanced One-shot Federated Learning with ViTs [77.42033827176806]
ワンショットフェデレートラーニング(One-Shot Federated Learning)は、単一のコミュニケーションラウンドでグローバルモデルを学ぶ中央サーバが、有望なパラダイムとして登場したものだ。
本稿では,合成画像の全パッチをフル活用してグローバルモデルをトレーニングする,新しいフェデレーションモデルインバージョンとトークンリラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-11T15:49:08Z) - Improving Machine Learning Performance with Synthetic Augmentation [0.0]
我々は、効果的なトレーニング分布の修正として、合成増強を形式化する。
追加のサンプルは推定誤差を減少させるが、人口目標をシフトさせることもできる。
合成増強は分散支配体制においてのみ有用であることを示す。
希少な登録ターゲティングは、ドメイン固有のメトリクスを改善することができるが、無条件の置換推論と矛盾する可能性がある。
論文 参考訳(メタデータ) (2026-04-16T00:23:01Z) - Noise Immunity in In-Context Tabular Learning: An Empirical Robustness Analysis of TabPFN's Attention Mechanisms [0.0]
言語基礎モデル(TFM)は、文脈内学習(ICL)を通して異種データセットを一般化する
制御された合成摂動を用いた二元分類問題に対するTabPFNとその注意機構について検討する。
我々は、注意集中度や注目度に基づく特徴ランクの指標を含む内部信号を分析する。
論文 参考訳(メタデータ) (2026-04-06T17:16:37Z) - A feature-stable and explainable machine learning framework for trustworthy decision-making under incomplete clinical data [0.14658400971135646]
CACTUS(Comprehensive Abstraction and Classification Tool for Excovering Structures)は、機械学習フレームワークである。
CACTUSは、特徴抽象化、解釈可能な分類、系統的な特徴安定性分析を統合し、データ品質の劣化に伴い、確実に情報的特徴が保持されるかを定量化する。
CACTUSは、不足が増大するにつれて、上位機能の安定性を著しく高く保ちながら、競争力や優れた予測性能を達成することを実証する。
論文 参考訳(メタデータ) (2026-02-19T13:48:10Z) - Causal Data Augmentation for Robust Fine-Tuning of Tabular Foundation Models [45.21399037022976]
CausalMixFTは、微調整の堅牢性と下流のパフォーマンスを向上させる方法である。
ターゲットデータセットに適合した構造因果モデル(Structure Causal Models, SCM)を用いて、構造的に一貫した合成サンプルを生成する。
TabArenaの33の分類データセットと2300以上の微調整実行で評価された。
論文 参考訳(メタデータ) (2026-01-07T17:16:39Z) - Learning Robust Diffusion Models from Imprecise Supervision [75.53546939251146]
DMISは、Imrecise Supervisionから堅牢な条件拡散モデルをトレーニングするための統一されたフレームワークである。
我々のフレームワークは、可能性から派生し、その目的を生成的および分類的構成要素に分解する。
画像生成、弱教師付き学習、データセットの凝縮をカバーし、様々な形の不正確な監視実験を行い、DMISが常に高品質でクラス差別的なサンプルを生成することを示した。
論文 参考訳(メタデータ) (2025-10-03T14:00:32Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - Robust Molecular Property Prediction via Densifying Scarce Labeled Data [53.24886143129006]
薬物発見において、研究を進める上で最も重要な化合物は、しばしば訓練セットを越えている。
本稿では, ラベル付きデータを利用して, 分布内データ(ID)と分布外データ(OOD)を補間する2段階最適化手法を提案する。
論文 参考訳(メタデータ) (2025-06-13T15:27:40Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。