Fugu-MT 論文翻訳(概要): When Is an LLM Worth It for Hyperparameter Optimization? A Budget-Matched Study on Tabular Data Finds the Warm-Start Is a Default Configuration, Not the Model

論文の概要: When Is an LLM Worth It for Hyperparameter Optimization? A Budget-Matched Study on Tabular Data Finds the Warm-Start Is a Default Configuration, Not the Model

arxiv url: http://arxiv.org/abs/2606.21641v1
Date: Fri, 19 Jun 2026 17:52:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-26 04:21:21.648367
Title: When Is an LLM Worth It for Hyperparameter Optimization? A Budget-Matched Study on Tabular Data Finds the Warm-Start Is a Default Configuration, Not the Model
Title（参考訳）: LLMがハイパーパラメータ最適化に価値があるのはいつか? タブラルデータに対する予算整合による考察
Authors: Carson Rodrigues, Oysturn Vas,
Abstract要約: 大規模言語モデル(LLM)は、事前知識から"ウォームスタート"検索を行うハイパーパラメータ最適化(HPO)アドバイザとして提案されている。 8つのPMLBベンチマークで、予算に適合したマルチシーズプロトコルで、この主張を検証します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have been proposed as hyperparameter-optimization (HPO) advisors that "warm-start" search from prior knowledge, proposing strong configurations in very few evaluations. We test that claim under a budget-matched, multi-seed protocol on eight PMLB tabular benchmarks, comparing an LLM advisor (LLM-OptFlow) against four classical baselines (random search, Optuna-TPE, Gaussian-process Bayesian optimization, and successive halving) over one shared search space, with paired tests and bootstrap 95% CIs across 8 x 5 = 40 (task, seed) units. The finding is cautionary. The advisor's strong first point is not an LLM output at all: like prior LLM-HPO systems the loop is seeded with a fixed default configuration, evaluated before any model call, which alone reaches 88.7% mean best-CV, identical to within 0.01 pp across all seven advisor models tested. The LLM's own proposals add only +0.40 pp of cross-validation accuracy over that seed and nothing on held-out test (LLM-Default = -0.01 pp, p = 0.92). When the same seed is granted to classical search, the apparent lead collapses: against seeded random search it leads by +0.20 pp at 2 evaluations, is tied by 5, and is behind by 12 (-0.37 pp). Without the seed, classical search ties the advisor by 12 evaluations and beats it by 40 (+0.6 to +0.8 pp, p <= 1e-4). Two LLM-specific behaviors survive: a single-task exploration failure (vehicle), and a rule-based confidence filter that removes ~33% of wasted compute without changing accuracy. The recommendation is deflationary: on tabular HPO, seed classical search with a sensible default; an LLM advisor adds no measurable generalization benefit and is overtaken within a handful of evaluations. We release the harness and a script that reproduces every statistic.
Abstract（参考訳）: 大規模言語モデル(LLM)は、事前知識から"ウォームスタート"検索を行うハイパーパラメータ最適化(HPO)アドバイザとして提案されており、非常に少ない評価で強力な構成を提案する。我々は,従来の4つの基準線(ランダム検索,オプトゥーナ-TPE,ガウス処理ベイズ最適化,逐次半減算)を,8 x 5 = 40 (タスク,シード) 単位に対して95% CIsのペアテストとブートストラップで比較した。発見は慎重だ。従来のLCM-HPOシステムと同様、ループは固定されたデフォルト設定でシードされ、任意のモデル呼び出しの前に評価される。 LLM 独自の提案では、シードに対して+0.40 pp のクロスバリデーション精度が加わり、ホールドアウトテスト(LLM-Default = -0.01 pp, p = 0.92)は行われない。同じ種子が古典的な探索に与えられると、明らかな鉛は崩壊する:2つの評価で+0.20 ppで誘導され、5で結合され、12 (-0.37 pp) 遅れる。シードがなければ、古典的な検索はアドバイザーを12の評価で結び付け、40(+0.6から+0.8 pp, p <= 1e-4)で打ち負かす。単一タスク探索失敗(車両)と、無駄な計算の約33%を精度を変えずに除去するルールベースの信頼フィルタである。 LLMアドバイザは測定可能な一般化の利点を付加せず、少数の評価で上回っている。私たちはハーネスとすべての統計を再現するスクリプトをリリースします。

関連論文リスト

Sequential Consensus for Multi-Agent LLM Debates: A Wald-SPRT compute governor with calibration-based failure detection [0.0]
マルチエージェントの議論は事実と推論を改善するが、ほとんどのレシピは固定されたラウンドカウントを選択する。我々は,LLM討論のプラグイン計算として,Wald's Sequential Probability Ratio Test (SPRT)を適用した。 GSM8Kでは、ルールは1.01ラウンド(4.06 LLMコール)で97.0%の精度で終了するが、15回のコールで固定5の討論では99.0%の精度で終了する。 MMLUでは、キャリブレーションされたKLは約0に崩壊し、ルール上限は2.1倍のコストで99.5%となる。
論文参考訳（メタデータ） (2026-05-18T23:43:12Z)
Beyond Inference-Time Search: Reinforcement Learning Synthesizes Reusable Solvers [0.0]
大規模言語モデル(LLM)は一般的に、各インスタンスを個別に解決する推論時プロシージャとして最適化にアプローチする。本稿では,制約付きクナプサックの制御変種であるSDS(Synergistic Dependency Selection)について考察する。 Qwen2.5-Coder-14B-Instruct with Group Relative Policy Optimization using a feasibility-gated reward and light Structure scaffolding。
論文参考訳（メタデータ） (2026-05-18T13:21:40Z)
Greedy Is a Strong Default: Agents as Iterative Optimizers [0.22843885788439797]
ランダムな提案生成装置をLCMエージェントに置き換え、評価診断を理由として情報付き候補を提案する。離散的,混合的,連続的な検索空間にまたがる4つのタスクを評価する。
論文参考訳（メタデータ） (2026-03-28T21:26:40Z)
Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch [42.242102214102566]
制約のない検索空間でソースコードを編集するLLMエージェントが古典的手法とのギャップを狭めることを示す。平均ベクトル,ステップサイズ,共分散行列を含むCMA-ESの内部状態を共有するハイブリッドであるCentaurを紹介する。 Centaurは実験で最高の結果を得ることができ、0.8Bの変種は27Bの変種よりも優れていた。
論文参考訳（メタデータ） (2026-03-25T17:29:40Z)
OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文参考訳（メタデータ） (2024-07-13T13:27:57Z)
How Far Are We on the Decision-Making of LLMs? Evaluating LLMs' Gaming Ability in Multi-Agent Environments [83.78240828340681]
GAMA($gamma$)-Benchは、マルチエージェント環境における大規模言語モデルのゲーム能力を評価するための新しいフレームワークである。 $gamma$-Benchは8つの古典ゲーム理論シナリオと、LSMの性能を評価するために特別に設計された動的スコアリングスキームを含んでいる。以上の結果から, GPT-3.5は強い強靭性を示すが, 一般化性は限定的であり, Chain-of-Thoughtのような手法で拡張可能であることが示唆された。
論文参考訳（メタデータ） (2024-03-18T14:04:47Z)
Prometheus: Inducing Fine-grained Evaluation Capability in Language Models [66.12432440863816]
我々は,GPT-4の評価能力に匹敵する,完全にオープンソースなLarge Language Model (LLM) であるPrometheusを提案する。プロメテウスは45種類の楽譜を用いた評価において、Pearsonの0.897の相関を人間の評価値と比較した。 Prometheusは2つの人間の選好ベンチマークで最も精度が高い。
論文参考訳（メタデータ） (2023-10-12T16:50:08Z)
Large Language Models are Effective Text Rankers with Pairwise Ranking Prompting [65.00288634420812]
Pairwise Ranking Prompting (PRP)は、大規模言語モデル(LLM)の負担を大幅に軽減する手法である。本研究は,中等級のオープンソースLCMを用いた標準ベンチマークにおいて,最先端のランク付け性能を達成した文献としては初めてである。
論文参考訳（メタデータ） (2023-06-30T11:32:25Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。