論文の概要: BUDDY: BUdget-Driven DYnamic Depth Routing for Adaptive Large Language Model Inference
- arxiv url: http://arxiv.org/abs/2606.09514v1
- Date: Mon, 08 Jun 2026 14:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.172905
- Title: BUDDY: BUdget-Driven DYnamic Depth Routing for Adaptive Large Language Model Inference
- Title(参考訳): BUDDY: 適応型大言語モデル推論のためのbudget-Driven Dynamic Depth Routing
- Authors: Yuhua Zhou, Shaoqi Yu, Shichao Weng, Changhai Zhou, Mingze Yin, Fei Yang, Aimin Pan,
- Abstract要約: Buddyは、大規模言語モデルのための予算駆動の動的深度ルーティングフレームワークである。
厳格な予算管理、デコードタイムの再ルーティング、トレーニングされた1つのモデルで複数の予算をサポートする。
- 参考スコア(独自算出の注目度): 8.041559188948003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) incur high inference cost due to their depth and parameter scale. Depth pruning can reduce latency by skipping redundant Transformer blocks, but existing methods (i) provide limited control under user-specific compute budgets and (ii) typically fix the routing path, failing to adapt as the context grows during decoding. We propose Buddy, a budget-driven dynamic depth routing framework. Buddy uses a lightweight Decision Module to score intermediate layers conditioned on the input and deterministically executes the top-k layers to satisfy a given budget. To support decode-time adaptation, Buddy reuses the first-layer KV cache as a low-overhead global context source and pools it together with the newest token representation before each routing decision. When no explicit budget is provided, an optional Budget Predictor estimates an input-dependent compute level to balance quality and efficiency. Experiments on Llama-family and Qwen models show that Buddy is competitive with strong static pruning baselines and often improves the accuracy-compute trade-off, while uniquely supporting strict budget control, decode-time rerouting, and multiple budgets within a single trained model.
- Abstract(参考訳): 大きな言語モデル(LLM)は、その深さとパラメータスケールのために高い推論コストを発生させる。
冗長なTransformerブロックをスキップすることで遅延を低減できるが、既存の方法
i) ユーザ固有の計算予算の下で限定的な制御を提供する。
(ii) 一般的にルーティングパスを修正し、デコード中にコンテキストが大きくなると適応できない。
予算駆動型動的深度ルーティングフレームワークであるBuddyを提案する。
Buddyは軽量のDecision Moduleを使用して入力に条件付き中間層をスコアし、所定の予算を満たすためにトップk層を決定的に実行する。
デコード時適応をサポートするため、Buddyは第1層KVキャッシュを低オーバーヘッドのグローバルコンテキストソースとして再利用し、ルーティング決定の前に最新のトークン表現と一緒にプールする。
明示的な予算が提供されない場合、オプションの予算予測器は、入力依存の計算レベルを推定し、品質と効率のバランスをとる。
Llama- FamilyとQwenモデルの実験では、Buddyは強力な静的プルーニングベースラインと競合し、しばしば精度と計算のトレードオフを改善する一方で、厳格な予算管理、デコードタイムのリルーチン、複数の予算を単一のトレーニングモデル内で独自にサポートしている。
関連論文リスト
- Budgeted LoRA: Distillation as Structured Compute Allocation for Efficient Inference [6.886536285117155]
Budgeted LoRAは、モデル圧縮を構造化された計算割り当て問題として扱うフレームワークである。
Budgeted LoRA は標準の LoRA パープレキシティを1.74倍の圧縮加群高速化で適度な予算で一致していることを示す。
適度なパープレキシティ劣化を伴う4.05倍の高速化を実現し、関数型インコンテキスト学習プローブの精度を向上する。
論文 参考訳(メタデータ) (2026-05-05T22:59:14Z) - Model Compression with Exact Budget Constraints via Riemannian Manifolds [39.54576236079211]
トータルコスト予算の下で各NグループにKオプションの1つを割り当てることは、効率的なAIにおいて繰り返し発生する問題である。
我々は、ソフトマックス緩和の下で、予算制約がロジット空間における滑らかなリーマン多様体を異常に単純な幾何学で定義することを示す新しいアプローチを示す。
これらの特性に基づいて、接射影、二分探索リトラクション、運動量輸送を標準とするリーマン制約最適化(RCO)を提案する。
論文 参考訳(メタデータ) (2026-05-01T13:30:23Z) - Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents [40.18150559561834]
Budget-Aware Value Tree (BAVT) は、動的検索ツリーとしてマルチホップ推論をモデル化するトレーニングフリーの推論時間フレームワークである。
BAVTは一貫して並列サンプリングベースラインを上回っている。
論文 参考訳(メタデータ) (2026-03-13T04:10:27Z) - Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory [56.0946692457838]
BudgetMemは、明示的でクエリ対応のパフォーマンスコスト管理のためのランタイムエージェントメモリフレームワークである。
軽量ルータは、タスク性能とメモリ構築コストのバランスをとるために、モジュール間の予算層ルーティングを実行する。
LoCoMo、LongMemEval、HotpotQAの他、BudgetMemはパフォーマンスが優先されるときに、強力なベースラインを超える。
論文 参考訳(メタデータ) (2026-02-05T18:57:09Z) - e1: Learning Adaptive Control of Reasoning Effort [88.51897900019485]
AIモデルの思考予算の増大は、精度を大幅に向上させるが、すべての質問が同じ量の推論を保証しているわけではない。
ユーザは、アウトプットの品質を、レイテンシやコストに対してどのように評価するかによって、さまざまな理由付けの労力を割り当てる傾向があります。
本稿では,ユーザが指定したトークン数を用いてモデルを学習する自己適応型強化学習手法であるAdaptive Effort Controlを提案する。
論文 参考訳(メタデータ) (2025-10-30T23:12:21Z) - Cost-Aware Contrastive Routing for LLMs [57.30288453580456]
我々は、プロンプトとモデルの両方を共有埋め込み空間にマッピングする軽量フレームワークであるコストスペクトルコントラストルーティング(CSCR)を紹介します。
CSCRはベースラインを一貫して上回り、精度とコストのトレードオフを最大25%改善した。
論文 参考訳(メタデータ) (2025-08-17T20:16:44Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。