論文の概要: DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in Hybrid Reasoning Models
- arxiv url: http://arxiv.org/abs/2606.23181v1
- Date: Mon, 22 Jun 2026 11:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:35:52.146226
- Title: DART: Draft-Agreement Routing for Training-Free Adaptive Thinking Budgets in Hybrid Reasoning Models
- Title(参考訳): DART:ハイブリッド推論モデルにおける学習不要な適応的思考予算のためのドラフトアグリメントルーティング
- Authors: Jungseob Lee, Seongtae Hong, Seungjun Lee, Jaehyung Seo, Junyoung Son, Sugyeong Eo, Chanjun Park, Hyeongju Park, Hyeonseok Moon, Heuiseok Lim,
- Abstract要約: トレーニング不要なルーティングフレームワークであるDARTを紹介します。
DARTは、ドラフトが同意すると直接回答を受け入れ、意見が一致しない場合には、ドラフトのエントロピーから思考予算を予測する。
数学の推論では、オリンピアードレベルの問題に対して最大9.0ポイントの精度が向上し、トークンは15-69%減少する。
実行ベースの等価性の下でのコード推論では、トークンが51-63%減少する一方で、精度が+22.5ポイント向上する。
- 参考スコア(独自算出の注目度): 45.71412371299232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hybrid reasoning models can answer directly or spend extra tokens on extended thinking. A practical router should choose between these modes for each query, so easy problems avoid unnecessary reasoning and hard problems receive enough budget to finish the answer. Existing routers move in this direction, but they typically require labeled training data or fix thinking budgets up front, ignoring answer-level evidence from the model itself. We introduce DART, a training-free routing framework that samples two cheap no-think drafts, accepts direct answering when the drafts agree, and predicts a thinking budget from draft entropy when they disagree. Across the main comparisons, DART preserves or improves always-thinking accuracy in most settings while reducing thinking-token use. On math reasoning, accuracy improves by up to $+$9.0 points on Olympiad-level problems while thinking tokens drop 15-69%. On code reasoning under execution-based equivalence, accuracy improves by up to +22.5 points while thinking tokens drop 51-63%. The Stage~1 signal extends across model scales (0.6B-32B), model families, and API-only hosted settings, with no labeled data and no gradient updates required.
- Abstract(参考訳): ハイブリッド推論モデルは直接答えるか、拡張思考に余分なトークンを使うことができる。
現実的なルータは、クエリ毎にこれらのモードを選択する必要があるため、不要な推論を避けることが簡単な問題であり、答えを完了するのに十分な予算が与えられる。
既存のルータはこの方向に進むが、通常はラベル付きトレーニングデータや、事前の思考予算の修正が必要であり、モデル自体からの回答レベルの証拠を無視している。
トレーニング不要のルーティングフレームワークであるDARTを紹介した。このフレームワークは、2つの安価な非考えのドラフトをサンプリングし、ドラフトが合意すれば直接回答を受け取り、意見が一致しない場合には、ドラフトのエントロピーから思考予算を予測する。
主な比較では、DARTは、ほとんどの設定で常に考える精度を保存または改善し、思考に注意する使用を減らす。
数学の推論では、オリンピアードレベルの問題に対して最大9.0ポイントの精度が向上し、トークンは15-69%減少する。
実行ベースの等価性の下でのコード推論では、トークンが51-63%減少する一方で、精度が+22.5ポイント向上する。
Stage~1シグナルは、モデルスケール(0.6B-32B)、モデルファミリ、APIのみのホスト設定に拡張され、ラベル付きデータや勾配更新は不要である。
関連論文リスト
- CEPO: RLVR Self-Distillation using Contrastive Evidence Policy Optimization [50.59956036193097]
検証可能な報酬(RLVR)を用いた強化学習における正しい解を生成するモデル
各トークンは、決定的な推論ステップであれ、文法的なフィラーであれ、同じ報酬信号を受信する。
コントラストエビデンスポリシー最適化(CEPO)を提案する。
CEPOは、全てのトークンに対してよりシャープな質問をする:「正しい答えは、このトークンを好むか?」が、「正しい答えは、正しい答えは、それを好む一方で、間違った答えはそれを好まないか?」。
論文 参考訳(メタデータ) (2026-05-19T06:46:19Z) - Hint Tuning: Less Data Makes Better Reasoners [30.274192211828723]
Hint Tuningは、モデルに推論の深さをキャリブレーションする、データ効率のよいアプローチである。
インストラクションモデルが様々なガイダンスで解決できるものをテストすることで、3つの状態にまたがるトレーニングデータを自動的に構築する。
インストラクタモデルの能力と単純なアライメントにより、優れた効率を実現する。
論文 参考訳(メタデータ) (2026-05-09T04:07:16Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Think Right: Learning to Mitigate Under-Over Thinking via Adaptive, Attentive Compression [68.69801176669843]
本稿では,冗長なステップを誘発し,難易度を推定するオンラインポストトレーニングRL手法を提案する。
TRAAC(Think Right with Adaptive, Attentive Compression)は、絶対精度が平均8.4%向上する。
我々のモデルは数学データセットに基づいて訓練されているが、分布外データセットの精度と効率性を示す。
論文 参考訳(メタデータ) (2025-10-02T02:00:20Z) - Entropy After $\langle \texttt{/Think} \rangle$ for reasoning model early exiting [38.93424884988798]
正しい解に到達した後も、回答を再検討し続けながら、大きな推論モデルが過大評価されていることを示す。
We propose Entropy After /Think> (EAT) for monitoring and decide whether to exit reasoning early。
EATは、正確性を損なうことなく、トークン使用量を13~21%削減する。
論文 参考訳(メタデータ) (2025-09-30T16:59:37Z) - SynapseRoute: An Auto-Route Switching Framework on Dual-State Large Language Model [12.929385845055137]
その結果,医療質問の約58%は,非思考モードだけで正確に回答できることがわかった。
機械学習に基づく動的ルーティングフレームワークであるSynapseRouteを提案する。
論文 参考訳(メタデータ) (2025-07-03T17:33:58Z) - Do Thinking Tokens Help or Trap? Towards More Efficient Large Reasoning Model [7.8354921036790275]
大きな推論モデル(LRM)は複雑な問題を解決するのに優れているが、過度なジレンマに直面している。
単純なタスクを扱う場合、思考トークンがオーバーロードされた冗長なレスポンスを生成することが多い。
これらのトークンは、リフレクションやバックトラックのような不要な高レベルの推論動作を引き起こし、効率を低下させる。
論文 参考訳(メタデータ) (2025-06-30T13:30:33Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - DAST: Difficulty-Adaptive Slow-Thinking for Large Reasoning Models [30.184895117009457]
本稿では,問題の難易度に基づいて,モデルが自律的にChain-of-Thought(CoT)の長さを調整できる,DAST(Difficulty-Adaptive Slow Thinking)を提案する。
多様なデータセットとモデルスケールの実験により、DASTは複雑な問題に対する推論精度を維持しながら、過剰思考を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2025-03-06T14:23:06Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。