論文の概要: Adaptive Nucleus Truncation for Long-Form Reasoning
- arxiv url: http://arxiv.org/abs/2606.13982v1
- Date: Fri, 12 Jun 2026 00:02:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.685205
- Title: Adaptive Nucleus Truncation for Long-Form Reasoning
- Title(参考訳): 長期推論のための適応的核切断法
- Authors: Ousmane Amadou Dia,
- Abstract要約: ANTSは、固定復号規則から長文生成のための適応的なロールアウト制御機構へトップ(n)サンプリングを拡張する。
33B-total/4B-active sparse-of-Expertsの推論モデルでは、ANTSはパーセンテージベースのベンチマークよりも+1.9、+3.8、+5.2ポイントの8K、16K、32K生成予算で平均パフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sampling plays an important role in long-form language-model reasoning. Over thousands of decoding steps, small changes in the candidate token set can compound into different reasoning trajectories, stability profiles, and final answers. Existing truncation methods such as top-$p$, min-$p$, and fixed top-$nσ$ sampling improve over unrestricted sampling, but they rely on fixed thresholds that cannot adapt to changes in entropy, task difficulty, training stage, or generation budget. We introduce Adaptive Nucleus Truncation Sampling (ANTS), which extends top-\(nσ\) sampling from a fixed decoding rule into an adaptive rollout-control mechanism for long-form generation. ANTS selects standardized neighborhoods around the maximum logit before temperature scaling, adapts the truncation width using an entropy-conditioned controller, and retains a no-truncation fallback arm to stabilize training when truncation becomes unsafe. On a 33B-total / 4B-active sparse Mixture-of-Experts reasoning model, ANTS improves average performance over percentage-based benchmarks by +1.9, +3.8, and +5.2 points at 8K, 16K, and 32K generation budgets, respectively. The strongest gains appear on instruction following and mathematical reasoning, with IFBench improving by more than 10 points at 32K and AIME 2025 improving by 7 points. Code generation reveals an important budget interaction. On Codeforces, ANTS trails the baseline at 8K, but reverses this gap and substantially improves ELO at 16K and 32K. These results suggest that sampler design should be treated not just as a decoding hyperparameter, but as part of how we stabilize and scale long-budget reasoning.
- Abstract(参考訳): サンプリングは、ロングフォームな言語モデル推論において重要な役割を果たす。
数千を超えるデコーディングステップにおいて、候補トークンセットの小さな変更は、異なる推論軌道、安定性プロファイル、最終回答にまとめられる。
既存のtruncationメソッドであるtop-p$, min-$p$, fixed top-nσ$は、制限のないサンプリングよりも改善されているが、エントロピーやタスクの難易度、トレーニングステージ、生成予算に適応できない固定しきい値に依存している。
本稿では,固定復号規則からトップ-\(nσ\)サンプリングを長文生成のための適応ロールアウト制御機構に拡張した適応核トランケーションサンプリング(ANTS)を提案する。
ANTSは、温度スケーリングの前に最大ロジット付近の標準化された地区を選択し、エントロピー条件のコントローラを使用してトランニケーション幅を調整し、トランニケーションが安全でないときにトレーニングを安定させるために、非トランニケーションフォールバックアームを保持する。
33B-total/4B-active sparse-of-Expertsの推論モデルでは、ANTSはパーセンテージベースのベンチマークよりも+1.9、+3.8、+5.2ポイントを8K、16K、32K生成予算で平均性能を改善する。
IFBenchは32Kで10ポイント、AIME 2025は7ポイント改善した。
コード生成は、重要な予算の相互作用を明らかにします。
Codeforcesでは、ANTSはベースラインを8Kで追跡するが、このギャップを逆転させ、ELOを16Kと32Kで大幅に改善する。
これらの結果から, サンプル設計は, ハイパーパラメータの復号化だけでなく, 長期予算推論の安定化とスケールの方法の一部として扱うべきであることが示唆された。
関連論文リスト
- Agile Online Model Selection: Resolving Adaptation Lag via Safeguarded Large Learning Rates [9.463718838347955]
本稿では,保護された大規模学習率を最大$(T) まで活用する,新しい楽観的なオンラインミラー降下法を提案する。
私たちの重要な技術的貢献は、不安定な更新を動的に監視し、過度の後悔を招く学習率を排除する、ポストホックペナルティメカニズムです。
3つの合成および11の多様な実世界のデータセットに対する実証的な評価は、我々のアプローチが数百ラウンドから数ラウンドまでの適応ラグを減少させることを示している。
論文 参考訳(メタデータ) (2026-05-26T12:18:08Z) - CRANE: Constrained Reasoning Injection for Code Agents via Nullspace Editing [5.661334639541121]
CRANEは、シンキング・インストラクトデルタを、インストラクトバックボーンの候補推論編集のプールとして扱う、トレーニング不要なパラメータ編集手法である。
ペア化されたインストラクトとシンキングのチェックポイントを組み合わせることで、CRANEはどちらのモデルよりも強力なゲインを提供する。
論文 参考訳(メタデータ) (2026-05-13T20:09:35Z) - Shuffle the Context: RoPE-Perturbed Self-Distillation for Long-Context Adaptation [86.62036852878354]
大規模言語モデル(LLM)は、信頼性の高い長文理解を必要とする設定でますます運用される。
位置ロバスト性を向上させるトレーニングレギュレータであるRoPE-Perturbed Self-Distillationを提案する。
Llama-3-8BとQwen-3-4Bの長文適応実験は、長文ベンチマークにおいて一貫した利得を示す。
論文 参考訳(メタデータ) (2026-04-15T18:46:35Z) - Logit-Entropy Adaptive Stopping Heuristic for Efficient Chain-of-Thought Reasoning [0.0]
CoTプロンプト(Chain-of-Thought)は、大規模言語モデルにおいて複雑な推論を可能にする重要なテクニックである。
LEASH: Logit-Entropy Adaptive Stopping Heuristicは,有理数生成を適応的に停止する学習自由復号アルゴリズムである。
論文 参考訳(メタデータ) (2025-11-06T18:43:16Z) - Speeding Up MACE: Low-Precision Tricks for Equivarient Force Fields [51.95157731126864]
機械学習力場は高い計算コストで正確な分子動力学(MD)を提供することができる。
この論文は、計算ボトルネックを特定し、低精度の実行ポリシーを評価することで、MACEを安価かつ高速にすることを目的としている。
論文 参考訳(メタデータ) (2025-10-23T14:02:34Z) - CarBoN: Calibrated Best-of-N Sampling Improves Test-time Reasoning [62.56541355300587]
本稿では,高逆推論経路に向けてモデルを適応的に修正する一般的なテスト時間校正フレームワークを提案する。
本フレームワークでは,まず解空間を探索し,次にロジットの校正を学習する二相法であるCarBoNを提案する。
MATH-500とAIME-2024の実験では、CarBoNは効率を向上し、同じ精度に達するために最大4倍のロールアウトが可能である。
論文 参考訳(メタデータ) (2025-10-17T14:04:37Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。