論文の概要: TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders
- arxiv url: http://arxiv.org/abs/2606.09323v1
- Date: Mon, 08 Jun 2026 10:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.929156
- Title: TRL-Bench: Standardizing Cross-Paradigm Representation-Level Evaluation of Tabular Encoders
- Title(参考訳): TRL-Bench:タブラルエンコーダのクロスパラダイム表現レベル評価の標準化
- Authors: Wei Pang, Xiangru Jian, Hehan Li, Zhixuan Yu, Alex Xue, Jinyang Li, Zhengyuan Dong, Xinjian Zhao, Hao Xu, Chao Zhang, Reynold Cheng, M. Tamer Özsu, Tianshu Yu,
- Abstract要約: タブラルエンコーダは通常、タスク固有のエンドツーエンドパイプライン内で評価される。
本稿では,並列表現レベル評価ベンチマークTRL-Benchを紹介する。
ベンチマークアセットとタスクリフォームは、50のOpenMLテーブルと123の認証対象、16の行ペアリンクリライト、47,772のDLTE湖を含む。
- 参考スコア(独自算出の注目度): 26.162383498686058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tabular encoders are usually evaluated inside task-specific end-to-end pipelines, so models from different training paradigms are difficult to compare directly even when they operate on similar tabular signals. We introduce TRL-Bench, a multi-granular tabular representation learning (TRL) benchmark that standardizes cross-paradigm representation-level evaluation: each encoder exports row-, column-, or table embeddings through its supported wrapper, and shared lightweight heads probe them across three suites: TRL-CTbench (column/table), TRL-Rbench (row), and TRL-DLTE (compositional Data-Lake Table Enrichment spanning all three granularities). To support this standardized setting, we release curated benchmark assets and task reformulations, including 50 OpenML tables with 123 verified targets, 16 row-pair linkage rewrites, and a 47,772-table DLTE lake derived from 1,379 parent tables. Across 20 models and 16 tasks, TRL-Bench shows that once downstream conditions are standardized, encoder quality is capability-specific rather than captured by a single leaderboard. In TRL-CTbench, generic text encoders often lead on tasks with strong surface-text signal, while tabular specialists win where their pretraining objective aligns with the task. In TRL-Rbench, within-table prediction and cross-table linkage favor different training regimes, with atomic linkage performance correlating strongly with the row-matching stage of DLTE pipelines. In TRL-DLTE, the strongest pipelines combine capability-matched specialists rather than reuse a single encoder, and top end-to-end quality depends on non-additive compositional fit rather than per-stage marginal rank alone. TRL-Bench provides a common protocol for measuring reusable signal in exported tabular representations under shared downstream conditions. Code and data: https://github.com/LOGO-CUHKSZ/TRL-Bench
- Abstract(参考訳): タブラルエンコーダは通常、タスク固有のエンドツーエンドパイプライン内で評価されるため、異なるトレーニングパラダイムのモデルは、同様の表信号で操作しても直接比較することは困難である。
本稿では,TRL-CTbench (column/table), TRL-Rbench (row), TRL-DLTE (compositional Data-Lake Table Enrichment) の3つのスイートにまたがって,各エンコーダがサポート対象のラッパーを通じて行,列,テーブルの埋め込みをエクスポートし,共有軽量ヘッドで探索する。
この標準化された設定をサポートするため、50のOpenMLテーブルと123の認証対象、16の行ペアリンクリライト、そして1,379の親テーブルから派生した47,772のDLTE湖を含む、キュレートされたベンチマークアセットとタスク修正をリリースする。
20モデルと16タスクにわたって、TRL-Benchは、下流条件が標準化されると、エンコーダの品質は単一のリーダーボードでキャプチャされるのではなく、機能固有のものであることを示した。
TRL-CTbenchでは、ジェネリックテキストエンコーダは、しばしば強い表面テキスト信号を持つタスクに導かれる。
TRL-Rbenchでは、内部テーブル予測とクロステーブルリンクは、DLTEパイプラインの行マッチングステージと強く相関する原子結合性能で、異なるトレーニング体制を好んでいる。
TRL-DLTEでは、最強のパイプラインは単一のエンコーダを再利用するのではなく、機能にマッチしたスペシャリストを組み合わせる。
TRL-Benchは、共有下流条件下での輸出表表現における再利用可能な信号を測定するための共通プロトコルを提供する。
コードとデータ:https://github.com/LOGO-CUHKSZ/TRL-Bench
関連論文リスト
- LimiX-2M: Mitigating Low-Rank Collapse and Attention Bottlenecks in Tabular Foundation Models [56.999481798138625]
LimiX-2Mは2Mパラメータモデルであり、広く使われているベンチマークでTabPFN-v2とTabICLのベースラインを上回っている。
本稿では,強力なタブラル基礎モデル(TFM)のための統一トークン化・ルートフレームワークを提案する。
その結果、TFMにおける精度-効率トレードオフを改善するキーレバーとして、バリューアウェアトークン化とリードアウト整列ルーティングが強調された。
論文 参考訳(メタデータ) (2026-06-03T06:07:33Z) - RelPrism: A Multi-Faceted Pre-training Framework with Self-Generated Tasks for Relational Databases [49.47033473074821]
RDBのための多面的自己教師型学習フレームワークであるRelPrismを提案する。
RDBタスクは、しばしば異なる視点と粒度の多面的な情報を必要とする。
以上の結果から,RelPrismはROC-AUCを4.15%改善し,MAEを10.75%削減した。
論文 参考訳(メタデータ) (2026-05-22T05:19:58Z) - TabPFN-3: Technical Report [76.55249061301969]
TabPFN-3はTabPFN上に構築され、1Mのトレーニング行を持つデータセットに最先端のパフォーマンスを拡大し、トレーニングと推論時間を大幅に短縮する。
TabPFN-3は、我々の以前の合成データのみに制限され、表の予測のフロンティアを劇的に押し上げます。
当社のAPIが提供するTabPFN-3-Plus(Thinking)では,TabArena上で200Elo以上の非TabPFNモデルに対して,これを活用しています。
論文 参考訳(メタデータ) (2026-05-13T18:01:43Z) - TableSeq: Unified Generation of Structure, Content, and Layout [2.5525721402846235]
TableSeqは、共同テーブル構造認識、コンテンツ認識、セルローカライゼーションのための画像のみのエンドツーエンドフレームワークである。
1つのデコーダは、texttt HTMLタグ、セルテキスト、離散化された座標トークンのインターリーブストリームを生成する。
TableSeqは、アーキテクチャの単純さを維持しながら、競争または最先端の結果を達成する。
論文 参考訳(メタデータ) (2026-04-17T13:54:38Z) - TableGPT-R1: Advancing Tabular Reasoning Through Reinforcement Learning [28.052232941379884]
TableGPT-R1は、システマティック強化学習フレームワーク上に構築された特殊なモデルである。
本手法は, 教師付きアライメントとRLロールアウトの両方に対して, 難成層化エージェント軌道を合成する。
信頼性ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-12-23T12:30:37Z) - Table-r1: Self-supervised and Reinforcement Learning for Program-based Table Reasoning in Small Language Models [52.94091440130039]
表推論(TR)は、半構造化データに対する構造化推論を必要とする。
小型言語モデル(SLM)は、大きなLM(LLM、例えばGPT-4o)と比較して限られた能力を持つ。
実行可能プログラムを生成することで、テキストベースTR(T-TR)の鍵となる制限を回避するプログラムベースTR(P-TR)を提案する。
4つのTRベンチマークの実験により、Table-r1は全てのSLMベースの手法より優れていることが示された。
論文 参考訳(メタデータ) (2025-06-06T14:52:19Z) - TabICL: A Tabular Foundation Model for In-Context Learning on Large Data [15.08819125687632]
最大60Kサンプルの合成データセットを事前学習した表層ベースモデルであるTabICLを導入する。
TALENTベンチマークから200を越える分類データセットのうち、TabICLはTabPFNv2と同等であり、体系的に高速(最大10倍)である。
10K以上のサンプルを持つ53のデータセットで、TabICLはTabPFNv2とCatBoostを上回り、大規模データに対するICLの可能性を示している。
論文 参考訳(メタデータ) (2025-02-08T13:25:04Z) - TRUST: An Accurate and End-to-End Table structure Recognizer Using
Splitting-based Transformers [56.56591337457137]
本稿では,TRUSTと呼ばれるテーブル構造認識手法を提案する。
変換器は、大域的な計算、完全メモリ、並列計算のためにテーブル構造認識に適している。
我々はPubTabNetやSynthTableなど,いくつかの人気のあるベンチマークで実験を行い,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2022-08-31T08:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。