論文の概要: Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
- arxiv url: http://arxiv.org/abs/2606.23127v1
- Date: Mon, 22 Jun 2026 10:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 23:53:31.579976
- Title: Managing Procedural Memory in LLM Agents: Control, Adaptation, and Evaluation
- Title(参考訳): LLMエージェントにおける手続き記憶の管理:制御,適応,評価
- Authors: Julia Belikova, Rauf Parchiev, Evgeny Egorov, Grigorii Davydenko, Gleb Gusev, Andrey Savchenko, Maksim Makarenko,
- Abstract要約: 以下は、6つの専門職と22の手続きスキルにまたがる382の現実的なエンタープライズタスクのベンチマークである。
実験により、手続き記憶は産業集約性能において一貫した向上をもたらすことが示された。
これらの結果は、生産エージェントプラットフォームにおける手続き型メモリシステムの構築、評価、デプロイのための実践的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 6.003738861983597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Procedural memory is increasingly used to improve LLM agents on recurring workplace tasks, yet its ability to produce reusable skills remains poorly understood. We introduce AFTER, a benchmark of 382 realistic enterprise tasks spanning six professional roles and 22 procedural skills, designed to evaluate how skills transfer across tasks, roles, and model backbones. The benchmark includes controlled evaluation settings for local improvement, cross-task transfer, cross-role transfer, and cross-model generalization. Experiments show that procedural memory delivers consistent gains in industrial workflows: a single refinement round improves aggregate performance by 3.7-6.7 points, while skills evolved from diverse multi-model execution traces achieve 73.1% cross-model test accuracy, outperforming all single-model trace sources. We further find that some skills generalize broadly across tasks and models, whereas others become specialized to role-specific workflows and lose effectiveness under transfer. These results provide practical guidance for building, evaluating, and deploying procedural memory systems in production agent platforms.
- Abstract(参考訳): 手続き記憶は、繰り返し行われる職場作業におけるLLMエージェントの改善にますます利用されているが、再利用可能なスキルを生み出す能力は未だよく分かっていない。
タスク,役割,モデルバックボーン間でのスキル伝達の評価を目的とした,6つの専門職と22の手続き的スキルにまたがる382の現実的なエンタープライズタスクのベンチマークであるafterを紹介した。
このベンチマークには、ローカル改善、クロスタスク転送、クロスロール転送、クロスモデル一般化のための制御された評価設定が含まれている。
単一の改良ラウンドは、集約性能を3.7-6.7ポイント改善する一方、多様なマルチモデル実行トレースから進化したスキルは、73.1%のクロスモデルテスト精度を達成し、すべてのシングルモデルトレースソースを上回っている。
さらに、タスクやモデルにまたがって、いくつかのスキルが広範囲に一般化されているのに対して、他のスキルはロール固有のワークフローに特化して、移行時の効率を損なうことに気付きました。
これらの結果は、生産エージェントプラットフォームにおける手続き型メモリシステムの構築、評価、デプロイのための実践的なガイダンスを提供する。
関連論文リスト
- SkillEvolBench: Benchmarking the Evolution from Episodic Experience to Procedural Skills [31.23929961213889]
大規模言語モデル(LLM)エージェントは、現実世界のタスクを解きながら豊富なエピソード軌道を蓄積する。
SkillEvolBenchは、経験の再利用からスキル形成まで、このステップを評価するための診断ベンチマークである。
現在のエージェントは、しばしばローカルに適応するが、堅牢な再利用可能なスキルを形成することは滅多にない。
論文 参考訳(メタデータ) (2026-05-22T18:23:31Z) - DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science [31.00353091375463]
DARE-benchは機械学習モデリングとデータサイエンスのインストラクションのためのベンチマークである。
6300のKaggleから派生したタスクで構成され、大規模なトレーニングデータと評価セットの両方を提供する。
DARE-benchトレーニングタスクを微調整に使用すると、モデルのパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2026-02-27T18:58:57Z) - Omni-Thinker: Scaling Multi-Task RL in LLMs with Hybrid Reward and Task Scheduling [66.0871543682453]
我々はOmni-Thinkerについて紹介する。Omni-Thinkerは多種多様なタスクにわたって大きな言語モデルをスケールする統合強化学習フレームワークである。
我々のスケジューラは,BWTに基づいてタスクを順序付けし,マルチタスク性能を向上する。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Routine: A Structural Planning Framework for LLM Agent System in Enterprise [10.989149053905587]
エンタープライズ環境におけるエージェントシステムの展開は、しばしばいくつかの課題によって妨げられる。
一般的なモデルは、ドメイン固有のプロセス知識が欠如し、非組織的な計画、主要なツールの欠如、実行の安定性が低下します。
本稿では、明確な構造、明示的な命令、シームレスなパラメータパッシングを備えたマルチステップエージェント計画フレームワークであるRuleineを紹介する。
論文 参考訳(メタデータ) (2025-07-19T02:46:19Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Self-Generated In-Context Examples Improve LLM Agents for Sequential Decision-Making Tasks [11.125564622217892]
大規模言語モデルエージェントは、人間の介入なしに自身の成功経験から学習することで改善する。
提案手法は,将来的なタスクのコンテキスト内例として機能する,自己生成トラジェクトリのデータベースを構築し,改良する。
我々の軌道ブートストラッピング技術は、エージェントが経験を通じて自律的に改善できることを示し、労働集約的な知識工学に代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-05-01T00:48:12Z) - Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorfBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorfEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。