論文の概要: MARS: Margin-Adversarial Risk-controlled Stopping for Parallel LLM Test-time Scaling
- arxiv url: http://arxiv.org/abs/2606.12935v1
- Date: Thu, 11 Jun 2026 05:56:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.607677
- Title: MARS: Margin-Adversarial Risk-controlled Stopping for Parallel LLM Test-time Scaling
- Title(参考訳): MARS: 並列LLMテストタイムスケーリングのためのマージン対逆リスク制御停止
- Authors: Wenbo Chen, Puheng Li, Mengyang Liu, Weijie Su, Tianpei Xie,
- Abstract要約: 我々は、どのアクティブなトレースが答えを変えるかを推定するマージン対逆停止規則であるMARSを導入する。
真のスイッチ確率では、MARSは、早期の回答が全予算の投票と一致することを高い確率で保証する。
- 参考スコア(独自算出の注目度): 6.927754654996353
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parallel test-time scaling samples many reasoning traces and majority-votes their answers, improving LLM accuracy but requiring traces to run to completion, incurring substantial computational overhead. We observe that probing partial traces at intermediate checkpoints can extract current answers without disrupting generation, revealing an evolving aggregate vote. Based on this observation, we introduce MARS, a margin-adversarial stopping rule that estimates which active traces are likely to change their answers and stops once the leader remains safe under a conservative bound on future vote movement. The rule separates two sources of uncertainty. It learns the trace-level switch probabilities that determine how much of the current margin is likely to be retained, while handling the harder question of where switching traces land through an adversarial bound calibrated from warmup traces. With true switch probabilities, MARS guarantees with high probability that the early-stopped answer matches the full-budget vote. In practice, a five-feature logistic model closely matches oracle switching behavior. Across three reasoning models and three competition-math benchmarks, MARS saves 25-47% of self-consistency tokens and 14-29% on top of DeepConf Online, a strong confidence-weighted baseline that already filters and truncates weak traces, while matching the accuracy of the corresponding full-budget baselines.
- Abstract(参考訳): 並列テストタイムスケーリングは、多くの推論トレースをサンプリングし、回答を多数投票し、LSMの精度を改善したが、完了までトレースを走らせる必要があり、かなりの計算オーバーヘッドを発生させる。
中間チェックポイントで部分的トレースを探索することで、生成を中断することなく現在の回答を抽出し、累積投票が発展するのを観察する。
この観察に基づいて、我々は、将来の投票運動の保守的境界の下でリーダーが安全を維持した後に、どのアクティブな痕跡が答えを変えそうなかを推定し、停止するマージン・アドバイサル・ストップ・ルールであるMARSを導入する。
この規則は2つの不確実性の源を分ける。
これは、現在のマージンのどれだけが保持されるかを決定するトレースレベルスイッチの確率を学習し、ウォームアップトレースからキャリブレーションされた対向境界を通って、スイッチングトレースがどこにあるかという難しい問題に対処する。
真のスイッチ確率では、MARSは、早期の回答が全予算の投票と一致することを高い確率で保証する。
実際には、5機能ロジスティックモデルはオラクルスイッチングの振る舞いと密接に一致している。
3つの推論モデルと3つの競合候補ベンチマークで、MARSは、DeepConf Onlineの上に、自己整合トークンの25~47%と14~29%を節約している。
関連論文リスト
- Are We Overconfident in Models and Results for Semi-Supervised 3D Medical Image Segmentation? [4.120238673372104]
半教師付き学習は、アノテーションのコストを削減する主要なパラダイムとなっている。
現在の進歩は2倍の過信問題によって曇っていると我々は主張する。
本稿では,二軸信頼性評価エンジン上に構築した三空間原理分割フレームワークを提案する。
論文 参考訳(メタデータ) (2026-05-25T08:16:40Z) - Beyond the Frontier: Stochastic Backtracking for Efficient Test-Time Scaling [4.636680302276584]
テストタイムスケーリングは、ソリューショントラジェクトリを探索するために追加の計算を使用することで、言語モデルの推論を改善する。
鍵となる課題は、推論中に生成されたトークンの総数を最小化しながら、精度を最大化することである。
我々は、過去のプレフィックスの永続的なプールにバックトラックを導入し、テスト時間計算が以前生成された状態を再考できるようにする。
論文 参考訳(メタデータ) (2026-05-24T15:48:57Z) - Pause and Reflect: Conformal Aggregation for Chain-of-Thought Reasoning [8.024041325202612]
自己整合性を考慮した思考の連鎖(CoT)推論は、複数のサンプル推論パスを集約することで性能を向上させる。
集約不確実性に直接対処するCoT推論のコンフォメーション手順を導入する。
提案手法は,多数決を推理経路よりも重み付けしたスコアアグリゲーションに置き換え,共形リスク制御を用いた棄権規則を校正する。
論文 参考訳(メタデータ) (2026-05-13T20:33:59Z) - LEAP: Unlocking dLLM Parallelism via Lookahead Early-Convergence Token Detection [35.2079721755684]
LEAP(Lookahead Early-Convergence Token Detection for Accelerated Parallel Decoding)を紹介する。
LEAPは、将来のコンテキストフィルタリングとマルチシーケンス重ね合わせを利用して早期収束トークンを検出する、トレーニングフリーのプラグアンドプレイ方式である。
GSM8Kデータセットでは、LEAPとdParallelを組み合わせることで、モデル精度を維持しながら、ステップ毎に7.2トークンにデコードが高速化される。
論文 参考訳(メタデータ) (2026-05-09T03:26:23Z) - Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching [66.39914384073145]
本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。
ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。
トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
論文 参考訳(メタデータ) (2026-02-26T11:08:39Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes [79.36545159724703]
隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。
LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。
これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
論文 参考訳(メタデータ) (2025-11-25T00:24:42Z) - Sample Smart, Not Hard: Correctness-First Decoding for Better Reasoning in LLMs [72.82403830490084]
我々は、復号規則は正確さによって校正されるべきであり、自信だけではならないと論じている。
Greedy-Threshold はこの目標を達成するための単純な戦略を提案します。
この結果から,不確実性の下での復号化が問題視され,数学や一般推論のベンチマークで有意な差がみられた。
論文 参考訳(メタデータ) (2025-10-07T14:46:12Z) - Cautious Next Token Prediction [62.74127603725369]
我々は、CNTP(Cautious Next Token Prediction)と呼ばれる新しいトレーニングフリーデコード戦略を提案する。
復号過程において、モデルが特定のステップで比較的高い予測エントロピーを持つ場合、独立にステップから始まる複数の試行をサンプリングし、句読点に遭遇する際に停止する。
提案するCNTPアプローチは,既存の標準復号方式よりも明確なマージンで一貫した性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-07-03T05:49:18Z) - Uncertainty-aware Unsupervised Multi-Object Tracking [33.53331700312752]
教師なしマルチオブジェクトトラッカーは、信頼できる機能埋め込みの学習に劣る。
最近の自己監督技術は採用されているが、時間的関係を捉えられなかった。
本稿では、不確実性問題は避けられないが、不確実性自体を活用して学習された一貫性を向上させることができると論じる。
論文 参考訳(メタデータ) (2023-07-28T09:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。