論文の概要: CRUMB: Efficient Prior Fitted Network Inference via Distributionally Matched Context Batching
- arxiv url: http://arxiv.org/abs/2606.11473v1
- Date: Tue, 09 Jun 2026 22:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.192966
- Title: CRUMB: Efficient Prior Fitted Network Inference via Distributionally Matched Context Batching
- Title(参考訳): CRUMB:分散マッチングコンテキストバッチによるネットワーク推論の効率化
- Authors: Jamie Heredge, Mattia J. Villani, Pranav Deshpande, Akshay Seshadri, Niraj Kumar,
- Abstract要約: 事前適合型ネットワーク(PFN)は、コンテキスト内学習を行う基盤モデルの有望なクラスである。
CRUMB(Clustered Retrieval using Minimized-MMD)は,テストクエリをクラスタリングする3段階推論ラッパーである。
CRUMBは、最大平均誤差を極端に最小化することにより、各クラスタに対して小さな、分散的に整合したトレーニングサブセットを選択する。
- 参考スコア(独自算出の注目度): 1.4211459456330362
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior-fitted networks (PFNs) are a promising class of tabular foundation models that perform in-context learning, whereby the entire labelled training set is supplied as context, and predictions for test queries are produced in a single forward pass. However, the quadratically scaling self-attention mechanism in many PFN architectures makes inference prohibitive for very large training datasets. We propose CRUMB (Clustered Retrieval Using Minimised-MMD Batching), a three-stage inference wrapper that (i) clusters the test queries, (ii) selects a small, distributionally matched training subset for each cluster by greedily minimising the maximum mean discrepancy (MMD), and (iii) runs exact PFN inference on each reduced-context batch. CRUMB is architecture-agnostic and requires no retraining. On the 51-dataset TabArena benchmark, evaluated across three PFN architectures (TabPFNv2, TabICLv1, TabICLv2), we show that CRUMB outperforms similar state-of-the-art context selection strategies. We also show that CRUMB is resilient to covariate drift, as the MMD-minimisation step naturally helps align the training context distribution to match the current test batch distributions.
- Abstract(参考訳): 事前適合ネットワーク(PFN)は、コンテキスト内学習を行う有望な表層基盤モデルであり、ラベル付きトレーニングセット全体をコンテキストとして提供し、テストクエリの予測を単一のフォワードパスで生成する。
しかし、多くのPFNアーキテクチャにおける4次スケールの自己注意機構は、非常に大規模なトレーニングデータセットでは推論を禁止している。
CRUMB (Clustered Retrieval using Minimized-MMD Batching) という3段階推論ラッパーを提案する。
i) テストクエリをクラスタ化する。
(ii)最大平均誤差(MMD)を極小化することにより、各クラスタに対して小さな分布整合トレーニングサブセットを選択する。
(iii) 各縮小コンテキストバッチ上で正確なPFN推論を実行する。
CRUMBはアーキテクチャに依存しないため、再トレーニングは不要である。
3つのPFNアーキテクチャ(TabPFNv2,TabICLv1,TabICLv2)で評価された51データセットのTabArenaベンチマークでは、CRUMBが類似の最先端コンテキスト選択戦略より優れていることを示す。
また、MDD最小化ステップは、トレーニングコンテキスト分布を現在のテストバッチ分布と一致させるのに役立つため、CRUMBは共変量ドリフトに耐性があることも示している。
関連論文リスト
- sGPO: Trading Inference FLOPs for Training Efficiency in RLVR [15.69155608127456]
標準強化学習(Standard Reinforcement Learning with Verifiable Rewards, RLVR)トレーニングは、クエリ毎に一定のロールアウト予算を割り当てる。
簡単なクエリは、ポリシーがすでにそれを解決しているのに対して、解決不可能なクエリは、ポリシーがそれを解決していないためにシグナルを発生しないため、ほぼゼロに近いアドバンテージを生み出す。
本稿では,小予算の推論FLOPを,無駄な学習FLOPの大幅な削減のために取引する計算効率の高い戦略であるソートされたグループポリシー最適化(sGPO)を紹介する。
論文 参考訳(メタデータ) (2026-06-07T21:47:31Z) - Temper-Then-Tilt: Principled Unlearning for Generative Models through Tempering and Classifier Guidance [51.532841645285835]
本研究では,タスクを目標分布に対する密度比推定としてフレーミングすることで,大規模生成モデルにおける機械学習について検討する。
左折集合がシャープで集中したデータ分布を表す場合、有限サンプルで忠実に解けないことを示す。
本稿では,基本モデルを凍結し,二段階の推論手法を適用したTemper-Then-Tilt Unlearning(T3-Unlearning)を提案する。
論文 参考訳(メタデータ) (2026-02-10T19:08:40Z) - OneFlowSBI: One Model, Many Queries for Simulation-Based Inference [2.614875980890442]
textitOneFlow SBIはシミュレーションベースの推論のための統一されたフレームワークである。
パラメータと観測の連成分布について、単一のフローマッチング生成モデルを学ぶ。
後続サンプリング、確率推定、任意の条件分布を含む複数の推論タスクをサポートする。
論文 参考訳(メタデータ) (2026-01-30T13:14:44Z) - Learning Discrete Bayesian Networks with Hierarchical Dirichlet Shrinkage [52.914168158222765]
我々はDBNを学習するための包括的なベイズ的フレームワークについて詳述する。
我々は、並列ランゲヴィン提案を用いてマルコフ連鎖モンテカルロ(MCMC)アルゴリズムを新たに提案し、正確な後続サンプルを生成する。
原発性乳癌検体から予後ネットワーク構造を明らかにするために本手法を適用した。
論文 参考訳(メタデータ) (2025-09-16T17:24:35Z) - Towards Fair In-Context Learning with Tabular Foundation Models [6.4989916051093815]
トランスフォーマーを用いたインコンテクスト学習(ICL)におけるフェアネスの最初の研究について述べる。
最近提案された3つの基盤モデル(TabPFNv2、TabICL、TabDPT)をベンチマークデータセットで評価した。
実験の結果、不確実性に基づく戦略は、予測精度に最小限の影響を伴って、グループフェアネスの指標を一貫して改善することが示された。
論文 参考訳(メタデータ) (2025-05-14T15:53:14Z) - Training-Free Unsupervised Prompt for Vision-Language Models [27.13778811871694]
本研究では,表現能力の保持と類似性に基づく予測確率の残差による強化を図るために,TFUP(Training-Free Unsupervised Prompts)を提案する。
TFUPは、複数の分類データセットのトレーニングベースメソッドを超え、驚くべきパフォーマンスを達成する。
TFUP-Tは,複数のベンチマークにおける教師なしおよび少数ショット適応手法と比較して,最先端の分類性能が向上する。
論文 参考訳(メタデータ) (2024-04-25T05:07:50Z) - Rethinking Few-shot 3D Point Cloud Semantic Segmentation [62.80639841429669]
本稿では,FS-PCSによる3Dポイント・クラウドセマンティックセマンティックセグメンテーションについて再検討する。
我々は、最先端の2つの重要な問題、前景の漏洩とスパースポイントの分布に焦点をあてる。
これらの問題に対処するために、新しいベンチマークを構築するための標準化されたFS-PCS設定を導入する。
論文 参考訳(メタデータ) (2024-03-01T15:14:47Z) - Boosting Low-Data Instance Segmentation by Unsupervised Pre-training
with Saliency Prompt [103.58323875748427]
この研究は、低データ体制のための新しい教師なし事前学習ソリューションを提供する。
近年のPrompting技術の成功に触発されて,QEISモデルを強化した新しい事前学習手法を導入する。
実験結果から,本手法は3つのデータセット上でのいくつかのQEISモデルを大幅に向上させることが示された。
論文 参考訳(メタデータ) (2023-02-02T15:49:03Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。