論文の概要: Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2606.10209v1
- Date: Mon, 08 Jun 2026 22:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.208147
- Title: Less Context, Better Agents: Efficient Context Engineering for Long-Horizon Tool-Using LLM Agents
- Title(参考訳): 文脈の少ない, より良いエージェント: 長期ツールを用いたLLMエージェントのための効率的なコンテキストエンジニアリング
- Authors: Abhilasha Lodha, Mahsa Pahlavikhah Varnosfaderani, Abir Chakraborty, Abhinav Mithal,
- Abstract要約: Microsoft Dynamics 365 Finance and Operationsにおける自動経費項目化の問題点について検討する。
ユーザモデル、完全な会話履歴、コンテキストは、最後の5つのツールコール/レスポンスペアにプルーニングされ、自動要約でプルーニングされる。
91.6%が完全なアイテム化、99.64%がアイテム化され、553,374のトークンと5.79時間である。
- 参考スコア(独自算出の注目度): 1.7849339006560665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models deployed as autonomous agents for enterprise workflows face a key challenge: verbose tool responses from enterprise systems can cause context overflow, stale-state errors, and high inference cost. We study this problem in automated expense itemization in Microsoft Dynamics 365 Finance and Operations using Model Context Protocol tools. We evaluate four GPT-5 configurations on a 50-task hotel expense benchmark: no user model, full conversation history, context pruned to the last 5 tool call/response pairs, and pruning with automated summarization. Results are averaged across 5 independent runs, with the user model held constant for the context-engineering comparison. The no-user-model baseline achieves only 8.0% complete itemization. Full-context retention improves completion to 71.0%, but consumes 1,480,996 tokens and 14.56 hours per benchmark. Pruning to the last 5 tool calls improves completion to 79.0% while reducing token use to 535,274 and runtime to 5.39 hours. Adding summarization achieves the best result: 91.6% complete itemization and 99.64% average amount itemized, with 553,374 tokens and 5.79 hours. We further report confidence intervals, effect-size analysis, sensitivity over pruning and summary windows, failure analysis, results across five expense types grouped into three categories, and cross-model evidence with Claude Sonnet 4.5. These results show that, for this class of enterprise tool-use workflow, selective retention of recent tool interactions plus compact summarization can improve both reliability and efficiency compared with full-history retention.
- Abstract(参考訳): エンタープライズシステムからの冗長なツール応答は、コンテキストオーバーフロー、ステール状態エラー、高推論コストを引き起こす可能性がある。
この問題を,Microsoft Dynamics 365 Finance and Operations において,Model Context Protocol ツールを用いて自動経費項目化を行う。
我々は,50タスクのホテル費用ベンチマークにおいて,ユーザモデルがないこと,会話履歴がないこと,最後の5つのツールコール/レスポンスペアにキューンされたコンテキスト,自動要約によるプルーニングの4つのGPT-5構成を評価した。
結果は5つの独立した実行で平均化され、ユーザモデルはコンテキストエンジニアリング比較のために一定に保持される。
no-user-modelベースラインは8.0%の完全なアイテム化しか達成していない。
完全コンテキスト保持は71.0%まで改善されるが、1ベンチマークあたり14.56時間、1,480,996トークンを消費する。
最後の5つのツールコールへのプルは、完了を79.0%に改善し、トークン使用を535,274、ランタイムを5.39時間に短縮する。
91.6%が完全なアイテム化、99.64%がアイテム化され、553,374のトークンと5.79時間である。
さらに, 信頼区間, 効果サイズ分析, 刈り取り窓の感度, 故障解析, 3つのカテゴリに分けた5つの費用タイプ, クロード・ソネット4.5によるクロスモデル証拠について報告する。
これらの結果から,このような企業ツール利用ワークフローでは,最近のツールインタラクションの選択的保持とコンパクトな要約が,フルヒストリー・リテンションと比較して信頼性と効率性の両方を向上させることが示唆された。
関連論文リスト
- Structural Verification for Reliable EDA Code Generation without Tool-in-the-Loop Debugging [0.6843491191969066]
本稿では,ツール・イン・ザ・ループのデバッグを,実行前に構造的正しさを強制することで除去することを提案する。
シングルステップタスクでは,パスレートが73.0% (LLM+RAG) から76.4% (tool-in-loop) から82.5% に向上する。
マルチステップタスクでは、パスレートは30.0%から70.0%に改善され、さらに軌道レベルの反射で84.0%に改善される。
論文 参考訳(メタデータ) (2026-04-20T20:58:52Z) - Context Engineering: A Practitioner Methodology for Structured Human-AI Collaboration [0.0]
本稿では、AIツールのプロンプトに付随する完全な情報ペイロードの組み立て、宣言、シークエンシングのための構造化手法であるContext Engineeringを紹介する。
4つのAIツール間で200のドキュメント化されたインタラクションに関する観察的研究では、不完全なコンテキストがイテレーションサイクルの72%に関連付けられている。
構造化コンテキストアセンブリは、タスク毎の平均イテレーションサイクルを3.8から2.0に削減し、ファーストパスの受け入れを32%から55%に改善した。
論文 参考訳(メタデータ) (2026-04-05T20:30:44Z) - The Limits of Long-Context Reasoning in Automated Bug Fixing [4.853967615615349]
大規模言語モデル(LLM)は、コンテキスト全体を直接推論することができる。
LLMの最近の進歩は、ソフトウェア工学のベンチマークで強力なパフォーマンスを実現している。
我々は,現在のLLMが長文コードとパッチ生成を確実に実行可能であるかどうかを体系的に評価する。
論文 参考訳(メタデータ) (2026-02-17T22:51:40Z) - MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。
現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。
最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。
このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。