Fugu-MT 論文翻訳(概要): ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

論文の概要: ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning

arxiv url: http://arxiv.org/abs/2606.06915v2
Date: Mon, 08 Jun 2026 11:00:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-09 14:42:05.064477
Title: ThinkBooster: A Unified Framework for Seamless Test-Time Scaling of LLM Reasoning
Title（参考訳）: ThinkBooster: LLM推論のシームレスなテスト時間スケーリングのための統一フレームワーク
Authors: Vladislav Smirnov, Chieu Nguyen, Sergey Senichev, Minh Ngoc Ta, Ekaterina Fadeeva, Artem Vazhentsev, Daria Galimzianova, Nikolai Rozanov, Viktor Mazanov, Jingwei Ni, Tianyi Wu, Igor Kiselev, Mrinmaya Sachan, Iryna Gurevych, Preslav Nakov, Timothy Baldwin, Artem Shelmanov,
Abstract要約: ThinkBoosterは、大規模言語モデル(LLM)推論のシームレスなテスト時間計算スケーリングのためのフレームワークである。最新のTTCスケーリング戦略とスコアファミリを実装するモジュール型のPythonライブラリで構成されている。デプロイ可能なOpenAI互換プロキシサービスにより、現実のアプリケーションへの適応推論のドロップイン統合が可能になる。
参考スコア（独自算出の注目度）: 110.46431027868954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-time compute (TTC) scaling has emerged as a powerful paradigm for improving large language model (LLM) reasoning by allocating additional compute during inference, e.g., via multi-sample generation and verifier-based reranking. Existing TTC scaling strategies and reasoning scorers remain fragmented, evaluated under inconsistent protocols, and are rarely analyzed through the lens of quality-cost trade-offs. We introduce ThinkBooster, a unified framework for seamless test-time compute scaling of LLM reasoning, which consists of (i) a modular Python library implementing state-of-the-art TTC scaling strategy and scorer families, (ii) a benchmark that jointly evaluates performance and computational efficiency, and (iii) a deployable OpenAI-compatible proxy service that enables drop-in integration of adaptive reasoning into real-world applications. We further provide a demo visual debugger for inspecting the reasoning trajectories, intermediate selection decisions, and alternative reasoning paths. Empirical results on mathematical and coding tasks reveal the performance-compute trade-offs of TTC scaling strategies and scoring methods and demonstrate that ThinkBooster provides practical gains in real-world tasks. The code is available online under an MIT license.
Abstract（参考訳）: テスト時間計算(TTC)のスケーリングは、大規模言語モデル(LLM)推論を改善するための強力なパラダイムとして登場した。既存のTTCスケーリング戦略と推論スコアラは断片化され、一貫性のないプロトコルで評価され、品質コストトレードオフのレンズを通して分析されることは滅多にない。我々は、LLM推論のシームレスなテスト時間計算スケーリングのための統合されたフレームワークであるThinkBoosterを紹介した。 i) 最新のTTCスケーリング戦略とスコアファミリを実装するモジュール型のPythonライブラリ。 (ii)性能と計算効率を共同で評価するベンチマーク 3) 現実のアプリケーションに適応推論のドロップイン統合を可能にする、デプロイ可能なOpenAI互換プロキシサービス。さらに、推論軌跡、中間選択決定、代替推論経路を検査するためのデモ視覚デバッガを提供する。数学およびコーディングタスクに関する実証的な結果から、TTCスケーリング戦略とスコアリング手法のパフォーマンス・計算トレードオフが明らかとなり、ThinkBoosterが現実のタスクに実用的な利益をもたらすことを示した。コードはMITライセンスでオンラインで入手できる。

関連論文リスト

Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文参考訳（メタデータ） (2026-02-02T09:14:51Z)
Beyond Fast and Slow: Cognitive-Inspired Elastic Reasoning for Large Language Models [39.03483371038282]
CogERは、人間の階層的推論にインスパイアされたフレームワークである。外部ツールを必要とするクエリに対して、Cognitive Tool-Assisted Reasoningを導入する。 CogERは最先端のTest-Timeスケーリングメソッドより優れています。
論文参考訳（メタデータ） (2025-12-17T05:11:58Z)
MatryoshkaThinking: Recursive Test-Time Scaling Enables Efficient Reasoning [33.47806621047652]
MatryoshkaThinkingは、最先端性能を維持しながら計算コストを大幅に削減する新しい手法である。 MatryoshkaThinkingは、DeepConfが必要とする計算の4%しか必要とせず、AIME2025で99.79のスコアを得た。
論文参考訳（メタデータ） (2025-10-11T17:18:12Z)
Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文参考訳（メタデータ） (2025-06-27T16:44:11Z)
Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。 TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文参考訳（メタデータ） (2025-04-29T13:52:47Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
To Code or not to Code? Adaptive Tool Integration for Math Language Models via Expectation-Maximization [30.057052324461534]
本稿では,メタ認知ツール利用決定と進化能力の間の自己強化サイクルを構築するために,構造化探索(E-step)と非政治最適化(M-step)を併用する新しいフレームワークを提案する。当社の7Bモデルは、MATH500では11%、AIMEでは9.4%、o1のようなCoTでは9.4%改善しています。
論文参考訳（メタデータ） (2025-02-02T06:32:23Z)
SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling [39.57154199908565]
自己拡張テストタイムスケーリング(SETS)は、並列およびシーケンシャルなテクニックを戦略的に組み合わせることで制限を克服する、シンプルで効果的なアプローチである。 SETSは、大規模言語モデルの固有の自己検証と自己計算機能を活用し、単一のフレームワーク内でサンプリング、検証、修正を統合する。以上の結果から,SETSは代替品よりも優れた性能向上と,より有利なテスト時間スケーリング動作を実現していることがわかった。
論文参考訳（メタデータ） (2025-01-31T17:03:16Z)
BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文参考訳（メタデータ） (2025-01-31T02:39:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。