論文の概要: HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
- arxiv url: http://arxiv.org/abs/2606.14249v1
- Date: Fri, 12 Jun 2026 08:27:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.827877
- Title: HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
- Title(参考訳): HarnessX: 構成可能で適応的で進化可能なエージェントHarness Foundry
- Authors: Tingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan,
- Abstract要約: HarnessXは、構成可能、適応可能、進化可能なエージェントハーネス用のファウンダリーである。
型付きハーネスプリミティブを置換代数学で組み立て、AIGISを介して適応する。
軌道をハーネス更新とモデルトレーニング信号の両方に変換することでハーネスモデルループを閉じる。
- 参考スコア(独自算出の注目度): 35.87794858139959
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.
- Abstract(参考訳): AIエージェントのパフォーマンスは、モデルがどのように観察、理由、動作を行うかを仲介するプロンプト、ツール、メモリ、制御フローを含むランタイムハーネスに大きく依存する。
しかし、今日のハーネスは、主に手作りで静的であり、新しいモデルやタスクは、未だに、スキャフォールディングを必要としており、実行中に生成された豊富なトレースは、体系的な改善のために蒸留されることはめったにない。
本稿では, コンポーザブル, アダプティブ, 進化可能なエージェントハーネスのためのファウンダリーであるHarnessXを紹介する。
HarnessXは、置換代数を介して型付きハーネスプリミティブを組み立て、シンボル適応と強化学習の間の運用ミラーに基礎を置くトレース駆動マルチエージェント進化エンジンであるAEGISを介してそれらを適応させ、軌道をハーネス更新とモデルトレーニング信号の両方に変換することでハーネスモデルループを閉じる。
5つのベンチマーク(ALFWorld, GAIA, WebShop, tau^3-Bench, SWE-bench Verified)で、HarnessXの平均利得は+14.5%(最大+44.0%)で、ベースラインが最も低い。
これらの結果は、エージェントの進捗がモデルスケーリングだけでは発生しないことを示している。実行時のフィードバックからランタイムインターフェースを合成し、進化させることは、実行可能な補完的なレバーである。
完全なコードベースは、将来のリリースでオープンソース化される予定だ。
関連論文リスト
- Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams [41.672123164003814]
このようなストリームのためのフレームワークとシステムであるAdaptive Auto-Harnessを紹介します。
オラクルハーネスとのギャップを進化損失と適応損失に分解する。
予測市場、セキュリティ競争、イベント予測ストリームで、既存の5つのオートハーネスベースラインを上回ります。
論文 参考訳(メタデータ) (2026-06-01T06:51:14Z) - Harness Updating Is Not Harness Benefit: Disentangling Evolution Capabilities in Self-Evolving LLM Agents [82.27610290890475]
i) ハーネス更新、(i) 実行証拠から有用な永続的ハーネス更新を生成する能力、(ii) ハーネスベネフィット、タスク解決時に更新されたハーネスの恩恵を受ける能力の2つのハーネス自己進化能力を分析した。
まず、ハーネス更新は基本能力において平坦である:異なる能力階層のモデルがハーネス更新を生成し、驚くほど類似したゲインをもたらす。
第二に、ハーネスベネフィットは基本能力において単調ではない:弱い層モデルは更新されたハーネスからほとんど恩恵を受けず、中層モデルは最も恩恵を受け、強い層モデルは中層より利益が低い。
論文 参考訳(メタデータ) (2026-05-28T22:16:14Z) - Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents [4.765206163164323]
モデル重みや評価環境を変化させることなく冷凍LDMエージェントを改善するライフサイクル対応ランタイムハーネスであるLife-Harnessを提案する。
ライフ・ハーネスは、繰り返し発生する相互作用の失敗を、環境契約、手続きスキル、行動実現、軌道規制にまたがる再利用可能な介入に変換することによって、訓練軌道から進化する。
ライフハーネスはモデル116のうち116で改善され、環境設定は18モデルバックボーンで改善され、平均的な相対的改善は88.5%である。
論文 参考訳(メタデータ) (2026-05-21T08:36:49Z) - Agentic Harness Engineering: Observability-Driven Automatic Evolution of Coding-Agent Harnesses [57.20181537213498]
Agentic Harness Engineering (AHE)は、ハーネスエンジニアリングを自動化するクローズドループである。
AHEは3つの一致した可観測性柱を通じて課題に対処する。
10 AHE lift pass@1 on Terminal-Bench 2 from 69.7% to 77.0%。
SWE-bench-verifiedでは、種子よりも12%少ないトークンで合計成功率を上回り、ターミナルベンチ2では+5.1から+10.1ppのクロスファミリーゲインを得る。
論文 参考訳(メタデータ) (2026-04-28T16:55:02Z) - xLAM: A Family of Large Action Models to Empower AI Agent Systems [111.5719694445345]
AIエージェントタスク用に設計された大規模なアクションモデルであるxLAMをリリースする。
xLAMは、複数のエージェント能力ベンチマークで例外的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-09-05T03:22:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。