論文の概要: A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees
- arxiv url: http://arxiv.org/abs/2606.23026v1
- Date: Mon, 22 Jun 2026 08:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 00:39:46.179639
- Title: A Stackelberg Framework for Resource-Aware LLM Agents: Learning, Repair, and Conditional Guarantees
- Title(参考訳): 資源対応LLMエージェントのためのStackelbergフレームワーク:学習,修復,条件付き保証
- Authors: Baoxun Wang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、マルチターンシステムがコンテキストを割り当て、冗長性を促し、有限の計算予算の下でツールアクセスを行なわなければならないため、ますます運用されるようになっている。
コントローラは品質目標とコストインセンティブにコミットし、エグゼキュータはコンテキスト、プロンプト、ツール使用に関するリソースアクションに応答します。
我々は条件付き応答モデルを学び、そのモデルに対してリーダーポリシーを最適化し、実際のAPIキャリブレーションとプロジェクションを用いて結果のポリシーを修復する。
- 参考スコア(独自算出の注目度): 1.9381445674403615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents increasingly operate as multi-turn systems that must allocate context, prompt verbosity, and tool access under finite computational budgets. Static thresholds are simple, but they are brittle under heterogeneous tasks and evolving session states. We formulate resource governance as a contextual Stackelberg game: a controller commits to a quality target and a cost incentive, while an executor responds with resource actions over context, prompting, and tool usage. We learn a conditional response model, optimize a leader policy against that model, and repair the resulting policy using real-API calibration and projection onto an empirically selected action set. For the restricted game, we establish conditional guarantees for equilibrium existence, follower-response stability, safe-set projection, and transfer from a surrogate environment to the real environment under bounded value error. The primary real-API experiment comprises 300 evaluated turns. Relative to a conservative baseline, the selected repaired controller reduces mean token cost by 17.4% (Welch $p=0.022$), while the measured quality difference is not statistically significant ($p=0.44$). The theoretical results are conditional and the experiments do not estimate their regret or transfer constants; consequently, the evidence establishes a promising repaired operating point, not a certified real-system equilibrium.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、コンテキストを割り当て、冗長性を促し、有限の計算予算の下でツールアクセスを必要とするマルチターンシステムとしてますます機能する。
静的しきい値は単純だが、不均一なタスクと進化するセッション状態の下では不安定である。
コントローラは品質目標とコストインセンティブにコミットし、エグゼキュータはコンテキスト、プロンプト、ツール使用に関するリソースアクションに応答します。
我々は条件付き応答モデルを学び、そのモデルに対してリーダーポリシーを最適化し、実APIキャリブレーションと実験的に選択されたアクションセットへの投影を用いて結果のポリシーを修復する。
制限されたゲームに対しては、平衡の存在、追従応答安定性、セーフセットプロジェクション、および境界値誤差の下で代理環境から実環境への移動の条件付き保証を確立する。
第一の実API実験は300回評価されたターンからなる。
保守的な基準に対して、選択された修理されたコントローラは平均トークンコストを17.4%削減する(Welch $p=0.022$)が、測定された品質差は統計的に有意ではない(p=0.44$)。
理論的結果は条件付きであり、実験は彼らの後悔や移動定数を推定しないため、証明された実システム平衡ではなく、有望な修復操作点を確立する。
関連論文リスト
- Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Your Language Model is Its Own Critic: Reinforcement Learning with Value Estimation from Actor's Internal States [14.658333957936769]
内部状態価値推定による政策最適化を導入する。
ポリシーフォワードパス中に既に計算されているポリシーモデルの内部信号を用いて、無視可能なコストでベースラインを得る。
軽量プローブは、プロンプトおよび生成された軌道の隠れ状態から期待される検証可能な報酬を予測する。
論文 参考訳(メタデータ) (2026-05-08T10:49:36Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Statistical Software Engineering with Tuned Variables [0.5076419064097734]
AI対応システムにおける保守されたアーティファクトは、コードプラス設定ではなく、バージョン管理された管理プログラムスペースである。
プログラム変数は、環境や評価セットが進化するにつれて、ガバナンスの下で維持される。
論文 参考訳(メタデータ) (2026-04-20T09:15:27Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。