論文の概要: Reinforcement Learning Foundation Models Should Already Be A Thing
- arxiv url: http://arxiv.org/abs/2606.18812v1
- Date: Wed, 17 Jun 2026 08:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.06824
- Title: Reinforcement Learning Foundation Models Should Already Be A Thing
- Title(参考訳): 強化学習財団のモデルはすでにあるべき
- Authors: Abdelrahman Zighem, Jill-Jênn Vie,
- Abstract要約: 言語とビジョンの基盤モデルは、インターネットスケールのデータによって駆動される。
代用データは合成データであり、コレクションから事前の設計に移行する。
我々は、完全に合成MDPに基づいて1つのモデルをトレーニングし、タスク固有のチューニングなしで、コンテキスト内でホールドアウトベンチマークを解決することを示す。
- 参考スコア(独自算出の注目度): 0.4640835690336653
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Foundation models for language and vision are powered by internet-scale data, while structured domains (tabular prediction, time-series forecasting, graph learning, reinforcement learning) are not. The substitute is synthetic data, which shifts the burden from collection to prior design. Such priors already exist for many structured tasks: TabPFN and its successors solve tabular classification with a transformer pretrained on a synthetic Bayesian prior. We make two points. \textbf{First}, reinforcement learning is the conspicuous gap: sampling a synthetic MDP is as feasible as sampling a synthetic tabular dataset, yet no in-context RL work treats prior design as a primary objective. \textbf{Second}, MDPs admit a fixed-size sufficient statistic, independent of the episodes observed and tabular in shape, which makes them directly amenable to the attention-based architectures used for tabular foundation models, with a policy head replacing the supervised target. Together these define the agenda for an RL foundation model. As a proof of concept, we train one model entirely on synthetic MDPs and show that, with no task-specific tuning, it solves held-out tabular benchmarks in context, both online and offline: online, in far fewer episodes than UCB-VI and tabular Q-learning, and offline, competitively with VI-LCB.
- Abstract(参考訳): 言語とビジョンの基礎モデルは、インターネット規模のデータによって駆動されるが、構造化されたドメイン(語彙予測、時系列予測、グラフ学習、強化学習)は、そうではない。
代用データは合成データであり、コレクションから事前の設計に移行する。
タブPFNとその後継は、合成ベイズ前駆体で事前訓練された変圧器で表層分類を解く。
ポイントは2つ。
合成MDPをサンプリングすることは、合成表形式のデータセットをサンプリングするのと同じくらい実現可能であるが、事前設計を第一の目的として扱うコンテキスト内RL作業は存在しない。
テクスチャbf{Second}, MDPsは、観察されたエピソードとは独立に十分な統計量を持ち、表形式で表される。
これらは共に、RL基盤モデルのアジェンダを定義します。
概念実証として,1つのモデルを完全合成MDPでトレーニングし,タスク固有のチューニングを伴わずに,オンラインとオフラインの両面において,オンラインとオンラインの両面において,UPB-VIや表型Q-ラーニングよりもはるかに少ない時間で,VI-LCBと競合してオフラインでタブ型ベンチマークを解くことを示した。
関連論文リスト
- Tabular Foundation Model for Generative Modelling [34.3599321018728]
生成モデリングは、教師付き予測対象のみを最適化するのではなく、与えられたデータモダリティに対して堅牢で全体論的表現学習を必要とする。
既存の表形式のファンデーションジェネレータは、合成データ品質において、強力なデータセット固有のジェネレータと一貫して一致していない。
事前訓練されたtextbfTabular textbffoundational textbfRepresentation for textbfGEneration 上に構築した TabFORGE を紹介する。
論文 参考訳(メタデータ) (2026-05-10T08:52:28Z) - Relational In-Context Learning via Synthetic Pre-training with Structural Prior [60.404256960057545]
RDB-PFNは、$textbfsynthetic$で純粋にトレーニングされた最初のリレーショナルファンデーションモデルである。
構造因果モデル(Structure Causal Models, SCM)から生成された合成データが単一のテーブル上の推論を可能にするPFN(Presideed-Data Fitted Networks)にインスパイアされた。
RDB-PFNは、19の現実世界の予測タスクにおいて、強い数ショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-04T07:30:54Z) - PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。
ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文 参考訳(メタデータ) (2026-02-03T21:35:18Z) - Mitra: Mixed Synthetic Priors for Enhancing Tabular Foundation Models [85.64873567417396]
実世界のデータに対して,その多様性,特異性,および性能のために選択された合成前駆体の硬化した混合物をトレーニングしたTFMであるMitraを紹介する。
Mitraは、TabPFNv2やTabICLのような最先端のTFMを、分類と回帰のベンチマークで一貫して上回っている。
論文 参考訳(メタデータ) (2025-10-24T07:15:06Z) - TabDPT: Scaling Tabular Foundation Models on Real Data [20.00390825519329]
ICLに基づく検索と自己教師付き学習を組み合わせた基礎モデルの学習手法を提案する。
事前学習フェーズに実際のデータを組み込むことで、学習が大幅に速くなり、見当たらないデータへの一般化が向上することを示す。
得られたモデルであるTabDPTは回帰 (CTR23) と分類 (CC18) のベンチマークで最高の性能を達成する。
論文 参考訳(メタデータ) (2024-10-23T18:00:00Z) - Scaling TabPFN: Sketching and Feature Selection for Tabular Prior-Data
Fitted Networks [31.82225213006849]
タブラル分類は伝統的に教師付きアルゴリズムに依存しており、トレーニングデータを用いて予測モデルのパラメータを推定する。
近年、TabPFNのようなPFN(Presideed Data Fitted Networks)は、コンテキスト内の表データの分類に成功している。
このようなモデルは非常に有望であるが、実際のデータに適用可能であるのは計算規模が限られているためである。
論文 参考訳(メタデータ) (2023-11-17T16:04:27Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Towards Cross-Table Masked Pretraining for Web Data Mining [22.952238405240188]
本稿では,CM2と呼ばれる,革新的で汎用的で効率的なクロステーブル事前学習フレームワークを提案する。
実験では,CM2の最先端性能を実証し,クロステーブルプレトレーニングが様々なダウンストリームタスクを向上させることを実証した。
論文 参考訳(メタデータ) (2023-07-10T02:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。