論文の概要: LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)
- arxiv url: http://arxiv.org/abs/2606.09004v1
- Date: Mon, 08 Jun 2026 04:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.691176
- Title: LATTEArena: An Evaluation Framework for LLM-powered Tabular Feature Engineering (Extended Version)
- Title(参考訳): LATTEArena: LLMによる口唇機能評価フレームワーク(拡張版)
- Authors: Ankai Hao, Ke Chen, Huan Li, Lidan Shou,
- Abstract要約: LATTEArenaは15の代表的なメソッドを再利用可能なコンポーネントに分解した分類を特徴とする最初の競争評価フレームワークである。
1)モンテカルロ木探索によるツリー・オブ・サーチは最適なコスト効率を実現し,(2)RPNとCodeの出力形式は,それぞれ分類と回帰タスクを支配している。
我々は、モジュラーフレームワークと4000以上の実行ログを公開し、研究者が既存のフレームワークに対してシームレスに新しいテクニックを落とし、LATTEを前進させることができるようにしました。
- 参考スコア(独自算出の注目度): 21.873402103599588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature engineering remains essential for tabular data analysis, and Large Language Models (LLMs) have emerged as a promising paradigm for automating this process, giving rise to LLM-powered AuTomated Tabular feature Engineering (LATTE). However, the absence of standardized platforms prevents fair, cost-aware comparisons. Furthermore, complex methodological designs obscure the specific contributions of individual components; for example, although LFG integrates Tree-of-Thought, few-shot demonstrations, Monte Carlo Tree Search, and natural language generation, the isolated impact of each technique's competitive edge remains unquantified. To address these challenges, we introduce LATTEArena, the first competitive evaluation framework featuring: (1) a six-dimensional taxonomy decomposing 15 representative methods into reusable components; (2) a standardized modular arena for controlled comparison; (3) multi-dimensional assessments covering performance, cost, and robustness; and (4) component-level ablation quantifying each technique's competitive edge. Through extensive evaluations, we reveal 16 key findings, including: (1) Tree-of-Thought with Monte Carlo Tree Search achieves optimal cost-effectiveness; (2) RPN and Code output formats dominate classification and regression tasks, respectively. We publicly release the modular framework and over 4000 execution logs, enabling researchers to seamlessly pit new techniques against existing ones and advance LATTE.
- Abstract(参考訳): 表形式のデータ分析には機能工学が不可欠であり、大規模言語モデル(LLM)がこのプロセスを自動化するための有望なパラダイムとして登場し、LLMを利用したAuTomated Tabular Feature Engineering (LATTE)が誕生した。
しかし、標準化されたプラットフォームがないため、公正でコストに配慮した比較ができない。
さらに、複雑な方法論設計は個々のコンポーネントの特定の貢献を曖昧にしている。例えば、LFGはTree-of-Thought、数発のデモ、Monte Carlo Tree Search、および自然言語生成を統合するが、それぞれのテクニックの競合エッジの孤立した影響は、いまだに定量化されていない。
これらの課題に対処するために,(1)15の代表的な手法を再利用可能なコンポーネントに分解した6次元の分類法,(2)制御された比較のための標準化されたモジュラーアリーナ,(3)性能,コスト,ロバスト性に関する多次元評価,(4)各テクニックの競合エッジを定量化するコンポーネントレベルのアブレーションを特徴とする,最初の競争力評価フレームワークであるLATTEArenaを紹介した。
1)Monte Carlo Tree Search を用いたツリー・オブ・サーチは最適なコスト効率を実現し,(2)RPN と Code の出力形式は,それぞれ分類タスクと回帰タスクを支配している。
我々は、モジュラーフレームワークと4000以上の実行ログを公開し、研究者が既存のフレームワークに対してシームレスに新しいテクニックを落とし、LATTEを前進させることができるようにしました。
関連論文リスト
- OpenCompass: A Universal Evaluation Platform for Large Language Models [62.59671563145442]
汎用大規模言語モデル (LLM) は, 技術の進歩において重要なリンクとなっている。
メインストリームベンチマークデータセットは、タスクタイプの多様性、一貫性のない評価基準、データと処理の断片化といった課題に直面している。
本稿では,ワンストップ,スケーラブル,高精度な汎用評価プラットフォームであるOpen LLMをオープンソースとして提案する。
論文 参考訳(メタデータ) (2026-05-19T02:50:11Z) - Context, Reasoning, and Hierarchy: A Cost-Performance Study of Compound LLM Agent Design in an Adversarial POMDP [3.774094352572544]
プログラム状態抽象化は、使用されるトークン当たりの最大のリターンを提供する。
階層をまたいだ議論ツールの配布は、階層のみに対するパフォーマンスを低下させる。
議論のない階層分解は、ほとんどのモデルにとって最高の絶対的な性能を達成する。
論文 参考訳(メタデータ) (2026-05-15T17:23:08Z) - LogicLens: Visual-Logical Co-Reasoning for Text-Centric Forgery Analysis [10.305807834419765]
テキスト中心の偽造は、社会保障と情報認証に重大な脅威をもたらす。
テキスト中心の偽造分析の現在の手法は、粗い粒度の視覚分析に限られることが多い。
LogicLens は Visual-Textual Co-reasoning のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-12-25T03:02:27Z) - Experts are all you need: A Composable Framework for Large Language Model Inference [8.747592414164687]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて最先端の精度を達成した。
MoEは、パラメータや"専門家"のサブセットのみを活性化することによって、モデルキャパシティを計算から切り離すことで、このボトルネックを克服する。
論文 参考訳(メタデータ) (2025-11-28T08:00:16Z) - What Matters in LLM-Based Feature Extractor for Recommender? A Systematic Analysis of Prompts, Models, and Adaptation [14.788780469735242]
LLM-as-feature-extractorパイプラインを4つのモジュールに分解するモジュールフレームワークであるRecXploreを提案する。
新しいテクニックを提案する代わりに、RecXploreは確立したメソッドを再検討し、整理し、各モジュールを分離して体系的な探索を可能にする。
実験の結果、既存の技術から得られる最良の設計を組み合わせるだけで、NDCG@5が18.7%、HR@5が12.7%向上することがわかった。
論文 参考訳(メタデータ) (2025-09-18T14:08:45Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Self-Discover: Large Language Models Self-Compose Reasoning Structures [136.48389510481758]
タスク固有の推論構造を自己発見するフレームワークであるSELF-DISCOVERを紹介する。
SELF-DISCOVERは、挑戦的推論ベンチマークにおいて、GPT-4とPaLM 2の性能を大幅に改善する。
自己発見推論構造は、モデルファミリー全体にわたって普遍的に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-02-06T01:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。