Fugu-MT 論文翻訳(概要): Sample Where You Struggle: Sharpening Base Model Reasoning via Entropy-Guided Power Sampling

論文の概要: Sample Where You Struggle: Sharpening Base Model Reasoning via Entropy-Guided Power Sampling

arxiv url: http://arxiv.org/abs/2606.09926v1
Date: Sun, 07 Jun 2026 14:06:20 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-10 15:40:58.052272
Title: Sample Where You Struggle: Sharpening Base Model Reasoning via Entropy-Guided Power Sampling
Title（参考訳）: ゆるぎのあるサンプル:エントロピー誘導型パワーサンプリングによるベースモデル推論
Authors: Hong Guo, Nianhui Guo, Christoph Meinel, Haojin Yang,
Abstract要約: エントロピー誘導パワーサンプリング(Entropy-Guided Power Smpling、EGPS)は、トレーニングフリーで検証不要なサンプル装置である。 EGPSは決定論的ブロックをスキップし、各MCMCを高エントロピー地区にローカライズし、決定点に多重Tryメトロポリスを適用する。
参考スコア（独自算出の注目度）: 7.8682919561927065
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Sampling from the sequence-level power distribution $p^α$ elicits RL-level reasoning from base language models without any parameter updates, but the standard Metropolis--Hastings (MH), a Markov Chain Monte Carlo (MCMC) sampler, is both expensive and slow-mixing. We trace both to a structural mismatch: $p^α$ mainly departs from $p$ at a sparse, spatially clustered set of high-entropy decision points, yet MH proposes resampling positions uniformly along the prefix -- wasting compute on near-degenerate conditionals while under-mixing precisely where modes diverge. We propose Entropy-Guided Power Sampling (EGPS), a training-free and verifier-free sampler that re-derives its proposal from token-level entropy already in the forward pass. EGPS skips deterministic blocks, localizes each MCMC move to a high-entropy neighborhood, and applies Multiple-Try Metropolis at decision points -- making sampling cost scale with \emph{entropy mass rather than sequence length}. On Qwen2.5-Math-7B, EGPS reaches best or tied-best accuracy on all three benchmarks (MATH500 $75.8\%$, HumanEval $62.2\%$, GPQA $42.4\%$) at up to a $12.6\times$ wall-clock speedup over the MH baseline.
Abstract（参考訳）: シーケンスレベルの電力分布からサンプリングする$p^α$は、パラメータを更新せずにベース言語モデルからRLレベルの推論を引き出すが、標準のMetropolis--Hastings (MH) は、Markov Chain Monte Carlo (MCMC) サンプリング器であり、高価で遅い混合である。 p^α$ は主にスパースで空間的にクラスタ化された高エントロピー決定点の集合で$p$ から出発するが、MH はプレフィックスに沿って一様に位置を再サンプリングすることを提案し、モードが正確に分岐するところを正確に混合しながら、ほぼ退化条件で計算を無駄にする。本研究では,すでに前方パスにあるトークンレベルのエントロピーから提案を導出する,トレーニング不要かつ検証不要なサンプル装置であるエントロピー誘導パワーサンプリング(EGPS)を提案する。 EGPSは決定論的ブロックをスキップし、各MCMCを高エントロピー地区にローカライズし、決定点に多重Tryメトロポリスを適用する。 Qwen2.5-Math-7Bでは、EGPSは3つのベンチマーク(MATH500 7.5.8\%$、HumanEval 6,2.2\%$、GPQA 4,2.4\%$)で最高または最短の精度に達し、最大で12.6\times$MHベースラインでのウォールクロックスピードアップを達成した。

関連論文リスト

Power-SMC: Low-Latency Sequence-Level Power Sampling for Training-Free LLM Reasoning [11.356198488445488]
トレーニング不要なSequential Monte CarloスキームであるPower-SMCを導入する。 MATH500では、Power-SMCはMHの電力サンプリングと一致し、レイテンシを16$---28times$から1.4$---3.3times$に下げる。
論文参考訳（メタデータ） (2026-02-10T20:31:40Z)
Amortized Simulation-Based Inference in Generalized Bayes via Neural Posterior Estimation [1.096028999747108]
一般化ベイズ推論(英語版)(GBI)は、過信を緩和し、モデルの不特定性の下で改善するために温度$>0$の損失を誘惑する。本研究は,1つの前進パスでサンプリング可能な1ドル(x,)$条件のニューラルな後進推定器$q_(mid x,)$をトレーニングすることにより,最初の完全償却変分近似を後進群$p_(mid x) propto (),p(x mid )$に与える。
論文参考訳（メタデータ） (2026-01-29T22:20:47Z)
Phase-space entropy at acquisition reflects downstream learnability [54.4100065023873]
楽器分解位相空間に基づく取得レベルスカラー$S_mathcal B$を提案する。本稿では, (S_mathcal B) が周期サンプリングの位相空間コヒーレンスを正確に同定できることを理論的に示す。 $|S_mathcal B|$は一貫してサンプリングジオメトリをランク付けし、トレーニングなしで下流での再構築/認識の困難を予測します。
論文参考訳（メタデータ） (2025-12-22T10:03:51Z)
Polynomial Mixing Times of Simulated Tempering for Mixture Targets by Conductance Decomposition [4.008356608627647]
位置シフトのみが異なる対数凹成分の混合物から採取した模擬温度計の理論的複雑さについて検討した。主な結果は、メトロポリス・ランゲヴィンアルゴリズム(MALA)と組み合わせた模擬テンパリングの初めての保証を確立することである。この証明は、拡張空間上に構築された補助マルコフ連鎖に適用される、$s$コンダクタンスの一般的な状態分解定理に基づいている。
論文参考訳（メタデータ） (2025-11-01T21:16:35Z)
CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。 MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文参考訳（メタデータ） (2025-10-17T14:04:37Z)
Spectral gap of Metropolis-within-Gibbs under log-concavity [1.4466802614938334]
MwG(Metropolis-within-Gibbs)アルゴリズムは、高次元分布からサンプリングするためのマルコフ連鎖モンテカルロ法である。我々は,MwGをRandom Walk Metropolis (RWM) 更新を用いて検討し,目標の条件変動に合わせるように調整された提案分散を用いて検討した。その結果,MwGは分散適応型提案とかなり高速な混合が可能であり,その混合性能はギブスサンプリング器よりもわずかに劣ることがわかった。
論文参考訳（メタデータ） (2025-09-30T12:31:22Z)
Simultaneous approximation of multiple degenerate states using a single neural network quantum state [0.0]
目標状態ごとに軽量なヘッドを付加しながら特徴抽出トランクを共有する単一トランクマルチヘッド(ST-MH)NQSアンサンブルを提案する。 ST-MH がすべての固有状態を表すことは、列空間が定数で拡張された遅延幅 $h$ の特徴写像が任意の列空間を持つとき、正確に証明できる。我々は,ST-MHが低消費電力の計算資源を使用しながら,縮退した基底状態全体にわたって高い忠実度とエネルギーの精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-09-02T17:49:33Z)
Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文参考訳（メタデータ） (2024-04-29T15:04:07Z)
Fast Rates for Maximum Entropy Exploration [52.946307632704645]
エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-03-14T16:51:14Z)
A New Framework for Variance-Reduced Hamiltonian Monte Carlo [88.84622104944503]
分散還元型ハミルトン・モンテカルロ法 (HMC) の新たなフレームワークを提案し,$L$-smooth および $m$-strongly log-concave 分布からサンプリングする。本研究では,SAGA法やSVRG法をベースとした非バイアス勾配推定器を用いて,バッチサイズを小さくすることで,高い勾配効率が得られることを示す。総合的および実世界のベンチマークデータによる実験結果から、我々の新しいフレームワークは、完全な勾配と勾配HMCアプローチを著しく上回っていることが示された。
論文参考訳（メタデータ） (2021-02-09T02:44:24Z)
Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。 Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文参考訳（メタデータ） (2020-06-04T17:51:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。