論文の概要: Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses
- arxiv url: http://arxiv.org/abs/2606.08348v1
- Date: Sat, 06 Jun 2026 21:40:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.053785
- Title: Bayesian-Agent: Posterior-Guided Skill Evolution for LLM Agent Harnesses
- Title(参考訳): ベイズ・アジェント : LLMエージェント・ハーネスの後方誘導スキル進化
- Authors: Xiaojun Wu, Cehao Yang, Honghao Liu, Xueyuan Lin, Wenjie Zhang, Zhichao Shi, Xuhui Jiang, Chengjin Xu, Jia Li, Jian Guo,
- Abstract要約: textbfBayesianAgentは、再利用可能なスキルとSOPを、特定のプロンプト、コンテキスト、利用環境下で凍結モデルが成功するかどうかの仮説として扱う。
ベイジアン=アジェントの記録は、軌道証拠を検証し、各技術に対して特徴条件付きカテゴリー後部を維持し、後方状態をパッチ、分割、圧縮、引退、探索のような検査可能な行動にマッピングする。
- 参考スコア(独自算出の注目度): 30.457068495035386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents increasingly rely on external inference conditions: prompts, tools, memory, SOPs, skills, and harness feedback. These assets can improve task execution without changing model weights, but they are often revised by heuristic reflection or by reusing observed successes and failures as if counts alone were reliable belief. We introduce \textbf{Bayesian-Agent}, a native and cross-harness framework that treats reusable skills and SOPs as hypotheses about whether a frozen model will succeed under a particular prompt, context, and harness environment. Bayesian-Agent records verified trajectory evidence, maintains a feature-conditioned categorical posterior over each skill, and maps posterior state into inspectable actions such as patch, split, compress, retire, and explore. Model-facing prompts receive executable guardrails and failure-mode patches, while posterior summaries remain available for audit. With \texttt{deepseek-v4-flash}, incremental repair improves SOP-Bench from 80\% to 95\%, Lifelong AgentBench from 90\% to 100\%, and RealFin-Bench from 45\% to 65\%. We further evaluate Bayesian-Agent's native backend and optional GenericAgent, mini-swe-agent, and Claude Code backends. The results include positive, negative, saturated, and case-study settings, suggesting that agent skill evolution is best viewed as posterior-guided harness optimization rather than uncalibrated prompt accumulation. The source code is available at https://github.com/DataArcTech/Bayesian-Agent.
- Abstract(参考訳): LLMエージェントは、プロンプト、ツール、メモリ、SOP、スキル、フィードバックの活用といった外部の推論条件にますます依存している。
これらの資産はモデルの重みを変えることなくタスクの実行を改善することができるが、しばしばヒューリスティックなリフレクションや、観察された成功と失敗を信頼できる信念であるかのように再利用することで修正される。
フリーズモデルが特定のプロンプト、コンテキスト、およびハーネス環境下で成功するかどうかの仮説として、再利用可能なスキルとSOPを扱う、ネイティブでクロスハーネスなフレームワークである、‘textbf{Bayesian-Agent} を紹介します。
ベイジアン=アジェントの記録は、軌道証拠を検証し、各技術に対して特徴条件付きカテゴリー後部を維持し、後方状態をパッチ、分割、圧縮、引退、探索のような検査可能な行動にマッピングする。
モデル対応プロンプトは、実行可能なガードレールと障害モードパッチを受け取り、後続のサマリーは監査に利用可能である。
texttt{deepseek-v4-flash}では、増分的な修復によりSOP-Benchが80\%から95\%に、Lifelong AgentBenchが90\%から100\%に、RealFin-Benchが45\%から65\%に改善される。
さらに、Bayesian-AgentのネイティブバックエンドとオプションのGenericAgent、mini-swe-agent、Claude Codeバックエンドを評価します。
その結果, 正, 負, 飽和, ケーススタディの設定が得られ, エージェントスキルの進化は, 未調整の急激な蓄積ではなく, 後部誘導による最適化と見なされることが示唆された。
ソースコードはhttps://github.com/DataArcTech/Bayesian-Agent.comで入手できる。
関連論文リスト
- Scaling Self-Evolving Agents via Parametric Memory [69.96398842169002]
既存のメモリ拡張LDMエージェントは、過去の経験をプロンプト空間にのみ保存する。
自己進化型パラメトリックメモリフレームワークである textttTMEM を導入する。
textttTMEMは、様々なモデルスケールで要約ベースのベースラインと検索ベースのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-06-03T07:18:31Z) - AgentLens: Revealing The Lucky Pass Problem in SWE-Agent Evaluation [11.272830796781925]
8つのモデルバックエンドから60個のSWEベンチ検証タスクの2,614個のOpenHandsトラジェクトリを評価した。
このサブセットで通過する軌道の中で、10.7%はラッキーパスと呼ばれる振る舞いを示す。
本稿では,SWEエージェント軌道のプロセスレベル評価フレームワークであるAgentLensを紹介する。
論文 参考訳(メタデータ) (2026-05-13T03:00:57Z) - AEL: Agent Evolving Learning for Open-Ended Environments [43.56685432981852]
本稿では,この障害に対処する2段階のフレームワークであるemphAgent Evolving Learning (ael)を紹介する。
ael はシャープ比 2.13$pm$0.47 を達成し、5つの自己改善法を上回ります。
これは、エージェントの自己改善におけるボトルネックが、アーキテクチャの複雑さを追加するのではなく、経験の使い方を自覚していることを示している。
論文 参考訳(メタデータ) (2026-04-23T14:29:25Z) - Scaling Test-Time Compute for Agentic Coding [126.72747643609274]
本稿では,ロールアウト軌跡のコンパクトな表現に基づくエージェントコーディングのためのテスト時間スケーリングフレームワークを提案する。
当社のフレームワークは,各ロールアウトを,その健全な仮説,進捗,障害モードを保存する構造的な要約に変換する。
提案手法は,SWE-Bench Verified および Terminal-Bench v2.0 におけるフロンティア符号化エージェントの性能を一貫して改善する。
論文 参考訳(メタデータ) (2026-04-16T17:39:33Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Where LLM Agents Fail and How They can Learn From Failures [62.196870049524364]
大規模言語モデル(LLM)エージェントは、複雑なマルチステップタスクの解決において有望であることを示す。
単一ルート原因エラーがその後の決定を通じて伝播する、障害のカスケードに対する脆弱性を増幅する。
現在のシステムは、モジュール的で体系的な方法でエージェントエラーを包括的に理解できるフレームワークを欠いている。
AgentErrorTaxonomyは、メモリ、リフレクション、計画、アクション、システムレベルの操作にまたがる障害モードのモジュール分類である。
論文 参考訳(メタデータ) (2025-09-29T18:20:27Z) - Memento: Fine-tuning LLM Agents without Fine-tuning LLMs [36.3424780932712]
本稿では,適応型大言語モデル(LLM)エージェントのための新しい学習パラダイムを提案する。
本手法は,メモリベースのオンライン強化学習により,低コストで連続的な適応を可能にする。
我々はエージェントモデルを,GAIA検証でトップ1に達するemphMementoというディープリサーチ環境でインスタンス化する。
論文 参考訳(メタデータ) (2025-08-22T07:25:30Z) - Agentic Program Repair from Test Failures at Scale: A Neuro-symbolic approach with static analysis and test execution feedback [11.070932612938154]
我々は、さまざまなソフトウェア製品にまたがる大規模なテスト失敗に基づいて、ソースコードを修正するエンジニアリングエージェントを開発した。
静的解析とテストの失敗を通じてエージェントにフィードバックを提供し、ソリューションを洗練できるようにします。
3ヶ月の間に、生成された修正の80%がレビューされ、そのうち31.5%が着陸した。
論文 参考訳(メタデータ) (2025-07-24T19:12:32Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Dissecting Adversarial Robustness of Multimodal LM Agents [70.2077308846307]
我々は、VisualWebArena上に現実的な脅威モデルを用いて、200の敵タスクと評価スクリプトを手動で作成する。
我々は,クロボックスフロンティアLMを用いた最新のエージェントを,リフレクションやツリーサーチを行うエージェントを含む,壊すことに成功している。
AREを使用して、新しいコンポーネントの追加に伴うロバスト性の変化を厳格に評価しています。
論文 参考訳(メタデータ) (2024-06-18T17:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。