論文の概要: Cost-Aware Speculative Execution for LLM-Agent Workflows: An Integrated Five-Dimension Method
- arxiv url: http://arxiv.org/abs/2606.07846v1
- Date: Fri, 05 Jun 2026 21:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.484122
- Title: Cost-Aware Speculative Execution for LLM-Agent Workflows: An Integrated Five-Dimension Method
- Title(参考訳): LLM-Agentワークフローに対するコストアウェアな投機的実行:統合5次元法
- Authors: Faisal Fareed,
- Abstract要約: 投機的実行は、予測上流入力で下流操作を起動することでアイドル時間を再利用することができる。
ここでは、各投機は実際の費用(単価単価)を負担し、その成功確率は見積もりが困難で、時間の経過とともにドリフトする。
本稿では,(D1)上流が完成する前に下流での運用を開始する,(D2)各投機を個別の入出力レートで価格設定する,(D3)単一演算子ダイヤルをレイテンシ対コストで公開する,(D4)障害重み付きコスト項と優先調整しきい値による期待値ルールによる決定,()
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-agent workflows chain model calls and tool invocations, and spend most of their wall-clock time waiting on upstream operations before downstream ones can start. Speculative execution can reclaim that idle time by launching a downstream operation with a predicted upstream input, but here each speculation costs real money (per-token billing) and its success probability is hard to estimate and drifts over time. This paper presents a method organized around five design decisions: (D1) start a downstream operation before its upstream completes; (D2) price each speculation in real dollars at separate input and output rates; (D3) expose a single operator dial for latency versus cost; (D4) decide via an expected-value rule with a failure-weighted cost term and a preference-adjusted threshold; and (D5) estimate the success probability with a Bayesian Beta-Binomial posterior whose prior is keyed to a dependency-type taxonomy. Variants of these ideas appear in recent work; the combination, with every decision logged in dollars, is what is new. The rule fires only on edges passing an admissibility precondition (side-effect-free, idempotent, or stageable behind a commit barrier), since a wrong speculation is rolled back by re-execution, which refunds tokens but cannot un-send an irreversible side effect. We specify the runtime mechanics, a closed-form result that the rule self-limits as the upstream branching factor grows, a five-stage calibration pipeline (offline replay, shadow, canary, online calibration, drift-triggered kill-switch), and a workload-fit rubric over eight production archetypes. Contrast tables against the four closest published systems (DSP, Speculative Actions v2, Sherlock, B-PASTE) show differentiators on every dimension, and a synthetic validation suite confirms the predicted decision boundary, probability threshold, posterior recovery, and streaming-cancellation behavior.
- Abstract(参考訳): LLM-agentワークフローは、モデル呼び出しとツール呼び出しをチェーンし、ダウンストリームの呼び出しを開始する前に、そのウォールタイムのほとんどを上流のオペレーションで待機する。
投機的実行は、予測上流入力で下流操作を起動することで、アイドル時間を取り戻すことができるが、ここでは各投機が実際の費用(単価単価)を負担し、その成功確率を見積もることは困難であり、時間の経過とともにドリフトする。
本稿では, (D1) 上流での操業開始前に, (D2) それぞれの投機を個別の入出力レートで価格設定すること, (D3) 単一演算子ダイヤルをレイテンシ対コストで公開すること, (D4) 故障重み付きコスト項と優先調整しきい値を用いた期待値ルールで決定すること, (D5) 先行する依存型分類に鍵をおくベイズ型ベータ・ビノミアル後部で成功確率を推定すること, の5つの設計上の決定について述べる。
これらのアイデアのバリエーションは、近年の作業に現れており、ドルに記録されたすべての決定と組み合わせることが、新しいことです。
不正な憶測は再実行によってロールバックされるため、トークンを返却するが、不可逆的な副作用を排除できない。
実行時機構,上流分岐因子としての自己限界が増大するクローズドフォーム,5段階キャリブレーションパイプライン(オフラインリプレイ,シャドウ,カナリア,オンラインキャリブレーション,ドリフトトリガー式キルスウィッチ),および8つの生産アーティファクト上のワークロード適合ルーブリックを規定する。
最も近い4つのシステム(DSP, Speculative Actions v2, Sherlock, B-PASTE)に対する比較表は、各次元の微分器を示し、合成検証スイートは予測された決定境界、確率閾値、リカバリ、ストリーミングキャンセラ動作を確認する。
関連論文リスト
- Pair-In, Pair-Out: Latent Multi-Token Prediction for Efficient LLMs [19.38885798529711]
PIPO (textbfPair-In, Pair-Out) を提案する。
PIPOは、ドラフトトークンが受け入れられるべきかどうかを決定する軽量な信頼性ヘッドをトレーニングする。
AIME 2025、GPQA-Diamond、LiveCodeBench v6、およびQwen3.5-4Bと9BのバックボーンによるLongBench v2の実験によると、PIPOは通常のデコードよりもパス@4を最大7.15ドルポイント改善している。
論文 参考訳(メタデータ) (2026-05-26T16:31:45Z) - Capability and Robustness Cannot Both Be Free: An Information-Theoretic Bound for Vision-Language-Action Models [0.0]
VLA(Vision-Language-Action)モデルはクリーンな入力で高い成功率に達するが、小さな逆方向の摂動で崩壊する。
PGD攻撃は、OpenVLA-7BのLIBEROの成功を95%ドルから5%以下に下げることを示す。
任意のVLAポリシーに対して、capability $I(Astar;Api)$と robustness $I(Api;Atildepi)-I(Api;)$ sum to at least $H(Astar)+I(X;Xt)
論文 参考訳(メタデータ) (2026-05-25T14:16:57Z) - TACT: Mitigating Overthinking and Overacting in Coding Agents via Activation Steering [70.99933391739154]
我々は、エージェントが既に持っている情報に対して繰り返し理由付けを行う2つの障害モードと、最近の観察を統合したり、新たな証拠を取得することなくツールコールを発行する2つの障害モードに焦点を当てる。
本稿では,活性化ステアリングによるTACT (Think-Act via activation Steering) を導入し,動作不良として現れる前に残留流中のエージェントの漂流を検知・緩和する。
具体的には、軌道のステップを過度に考え、過剰に実行し、あるいは校正し、隠れた状態が2つの *drift 軸* に沿って線形に分離できることを発見し、それぞれの障害モードに向かって校正された振る舞いを指示する。
論文 参考訳(メタデータ) (2026-05-07T10:24:27Z) - Revisable by Design: A Theory of Streaming LLM Agent Execution [10.580232912847212]
本稿では,エージェントの実行とユーザの介入を同時に行うストリームパラダイムを提案する。
我々は、矛盾する補償可能な行為が避けられない適応コストを課し、矛盾する不可逆的な行為が完全な仕様満足度を不可能にすることを示す。
軽度仮定の下で構造的に最適であるEariest-Conflict Rollback則に基づくリアクティブアルゴリズムであるRevision Absorberを提案する。
論文 参考訳(メタデータ) (2026-04-25T12:55:15Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Conformal Tradeoffs: Guarantees Beyond Coverage [0.02648566468224904]
配置されたコンフォーマル予測器は、有限操作ウィンドウ上で稼働する長期間の意思決定基盤である。
マージのカバレッジは、デプロイメントに直面する量を特定しません。
私たちは、範囲を超えて運用の認証と計画のためのフレームワークを提供しています。
論文 参考訳(メタデータ) (2026-02-20T07:58:25Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Pipeline Parallelism is All You Need for Optimized Early-Exit Based Self-Speculative Decoding [73.67253077506672]
大規模言語モデル(LLM)は、優れた生成品質を提供するが、非常に高い推論コストをもたらす。
早期排他的自己投機的復号法(EESD)がこのコストを軽減するために登場した。
ドラフトと検証作業を完全にパイプライン化するパイプライン・パラレル自己スペクティブ・デコーディング(PPSD)を提案する。
論文 参考訳(メタデータ) (2025-09-19T04:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。