論文の概要: LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)
- arxiv url: http://arxiv.org/abs/2606.09004v2
- Date: Tue, 16 Jun 2026 11:38:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.428931
- Title: LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)
- Title(参考訳): LATTEArena: LLMによる口唇機能評価フレームワーク(拡張版)
- Authors: Ankai Hao, Ke Chen, Huan Li, Lidan Shou,
- Abstract要約: LATTEArenaは、自動機能エンジニアリングのための標準化、モジュール化、およびベンチマークフレームワークである。
制御されたコンポーネントレベルの比較を可能にすることで、LATTEArenaはパラダイムをアドホックなプロンプトエンジニアリングから、システマティックなコンテキスト管理へとシフトする。
すべてのコード、データセット、4000以上の実行ログは、動的でコミュニティ主導のベンチマークを育むために公開されています。
- 参考スコア(独自算出の注目度): 21.873402103599588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature engineering remains a cornerstone of tabular data analysis, and Large Language Models (LLMs) have emerged as a promising paradigm for its automation, giving rise to LLM-powered Automated Tabular Feature Engineering (LATTE). However, the field lacks standardized, cost-aware evaluation platforms, and the combinatorial explosion of design choices obscures true algorithmic progress. To bridge these gaps, we systematically deconstruct 15 representative LATTE methods into a unified 6-dimensional taxonomy. Based on this abstraction, we introduce LATTEArena, a standardized, modular, and extensible benchmarking framework that decouples monolithic pipelines into reusable execution blocks. By distilling the massive combinatorial space, we evaluate 24 core LATTE configurations across 7 research questions. Our head-to-head benchmarking goes beyond predictive accuracy to quantify token efficiency and execution robustness, yielding 17 empirical findings on cost-effectiveness trade-offs. Furthermore, we provide 3 concrete recommendations for optimal real-world deployment. By enabling controlled component-level comparisons, LATTEArena shifts the paradigm from ad-hoc prompt engineering to systematic context management. All code, datasets, and over 4,000 execution logs are publicly available to foster a dynamic, community-driven benchmark. Our framework, leaderboard, and all artifacts are hosted on the LATTEArena project website at https://goodenhak.github.io/LATTEArena.
- Abstract(参考訳): 機能エンジニアリングは表形式のデータ分析の基礎のままであり、Large Language Models (LLMs) は自動化のための有望なパラダイムとして登場し、LLMを動力とするAutomated Tabular Feature Engineering (LATTE) が誕生した。
しかし、この分野は標準化され、コストを意識した評価プラットフォームが欠如しており、設計選択の組合せ的爆発は真のアルゴリズムの進歩を曖昧にしている。
これらのギャップを埋めるため、15の代表的なLATTE法を6次元の統一分類に体系的に分解した。
この抽象化に基づいて,モノリシックパイプラインを再利用可能な実行ブロックに分離する,標準化されたモジュール化された拡張可能なベンチマークフレームワークであるLATTEArenaを紹介する。
大規模な組み合わせ空間を蒸留することにより、7つの質問に対して24コアのLATTE構成を評価した。
我々の頭から頭へのベンチマークは、トークンの効率と実行の堅牢性を定量化するための予測精度以上のもので、コスト効率のトレードオフに関する17の実証的な結果をもたらします。
さらに、最適な実世界展開のための3つの具体的なレコメンデーションを提供します。
制御されたコンポーネントレベルの比較を可能にすることで、LATTEArenaはパラダイムをアドホックなプロンプトエンジニアリングから、システマティックなコンテキスト管理へとシフトする。
すべてのコード、データセット、4000以上の実行ログは、動的でコミュニティ主導のベンチマークを育むために公開されています。
私たちのフレームワーク、リーダボード、およびすべてのアーティファクトは、LATTEArenaプロジェクトのWebサイトでhttps://goodenhak.github.io/LATTEArena.comでホストされています。
関連論文リスト
- OpenCompass: A Universal Evaluation Platform for Large Language Models [62.59671563145442]
汎用大規模言語モデル (LLM) は, 技術の進歩において重要なリンクとなっている。
メインストリームベンチマークデータセットは、タスクタイプの多様性、一貫性のない評価基準、データと処理の断片化といった課題に直面している。
本稿では,ワンストップ,スケーラブル,高精度な汎用評価プラットフォームであるOpen LLMをオープンソースとして提案する。
論文 参考訳(メタデータ) (2026-05-19T02:50:11Z) - Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP [3.774094352572544]
プログラム状態抽象化は、使用されるトークン当たりの最大のリターンを提供する。
階層をまたいだ議論ツールの配布は、階層のみに対するパフォーマンスを低下させる。
議論のない階層分解は、ほとんどのモデルにとって最高の絶対的な性能を達成する。
論文 参考訳(メタデータ) (2026-05-15T17:23:08Z) - LogicLens: Visual-Logical Co-Reasoning for Text-Centric Forgery Analysis [10.305807834419765]
テキスト中心の偽造は、社会保障と情報認証に重大な脅威をもたらす。
テキスト中心の偽造分析の現在の手法は、粗い粒度の視覚分析に限られることが多い。
LogicLens は Visual-Textual Co-reasoning のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-12-25T03:02:27Z) - Experts are all you need: A Composable Framework for Large Language Model Inference [8.747592414164687]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の精度を達成した。
MoEは、パラメータや"専門家"のサブセットのみを活性化することによって、モデルキャパシティを計算から切り離すことで、このボトルネックを克服する。
論文 参考訳(メタデータ) (2025-11-28T08:00:16Z) - What Matters in LLM-Based Feature Extractor for Recommender? A Systematic Analysis of Prompts, Models, and Adaptation [14.788780469735242]
LLM-as-feature-extractorパイプラインを4つのモジュールに分解するモジュールフレームワークであるRecXploreを提案する。
新しいテクニックを提案する代わりに、RecXploreは確立したメソッドを再検討し、整理し、各モジュールを分離して体系的な探索を可能にする。
実験の結果、既存の技術から得られる最良の設計を組み合わせるだけで、NDCG@5が18.7%、HR@5が12.7%向上することがわかった。
論文 参考訳(メタデータ) (2025-09-18T14:08:45Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。