論文の概要: What makes a harness a harness: necessary and sufficient conditions for an agent harness
- arxiv url: http://arxiv.org/abs/2606.10106v1
- Date: Mon, 08 Jun 2026 19:35:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.157137
- Title: What makes a harness a harness: necessary and sufficient conditions for an agent harness
- Title(参考訳): ハーネスをハーネスにするもの--エージェントハーネスに必要な十分な条件
- Authors: Sanderson Oliveira de Macedo,
- Abstract要約: エージェントハーネスという用語は、生成人工知能を用いたソフトウェア工学において広く流通している。
本稿では,エージェントハーネスとなるシステムに必要な,十分な条件を記述した定義を提案する。
この貢献はエージェントハーネスの運用定義であり、共通語彙を持ち、エンジニアリングの実践を導くことができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The term agent harness now circulates widely in software engineering with generative artificial intelligence. It names the layer that wraps a language model and turns it into a coding agent able to act on a repository. The usage is loose and polysemous. Sometimes the term denotes the whole product (Claude Code, Codex CLI); sometimes it denotes the evaluation scaffold that runs an agent against tasks (the SWE-bench harness); sometimes it gets conflated with an agent framework, an SDK, an IDE plugin, or an orchestrator. What is missing is a reference definition that works as an instrument, one that includes and excludes cases consistently. We build that definition through a conceptual analysis that combines works with persistent identifiers and primary grey-literature sources, such as official documentation, glossaries, and engineering reports. We reconstruct the genealogy of the term, from the horse's tack to the classic test harness, to the machine-learning evaluation harness, and finally to the agent harness. We then propose a constitutive definition that states the necessary and sufficient conditions for a system to be an agent harness, we operationalize it as an inclusion and exclusion test, and we draw the boundary of the concept against an agent framework, an agent SDK, an IDE plugin, an eval harness, and an orchestrator. We apply the definition to six real harnesses (Claude Code, Codex CLI, Aider, Cline, OpenHands, and SWE-agent) and to deliberate edge cases; the test includes and excludes consistently. We close with a research agenda organized by design tension axes. The contribution is an operational definition of agent harness, with a shared vocabulary, able to guide engineering practice and the scientific comparison of agentic systems.
- Abstract(参考訳): エージェントハーネスという用語は現在、生成人工知能を使ったソフトウェア工学において広く流通している。
言語モデルをラップし、それをレポジトリで動作可能なコーディングエージェントに変換するレイヤを名付ける。
用途は緩く多様である。
時々、この用語は製品全体を表す(Claude Code、Codex CLI、SWE-benchのハーネス)。また、エージェントフレームワーク、SDK、IDEプラグイン、オーケストレータと混同されることもある。
欠けているのは、ケースを一貫して含んで除外する、インスツルメンテーションとして機能する参照定義です。
我々は、その定義を、永続的な識別子と公式文書、用語集、エンジニアリングレポートなどの主要な灰色文字ソースと組み合わせた概念分析によって構築する。
馬のタックから古典的なテストハーネス、機械学習評価ハーネス、最後にエージェントハーネスまで、この用語の系譜を再構築する。
次に,エージェント・ハーネスであるシステムに必要な十分な条件を記述した構成的定義を提案し,それを包括的かつ排除的テストとして運用し,エージェント・フレームワーク,エージェント・SDK,IDEプラグイン,エバル・ハーネス,オーケストレータに対して概念の境界線を描く。
定義は6つの実ハーネス(Claude Code、Codex CLI、Aider、Cline、OpenHands、SWE-agent)と、意図的にエッジケースに適用します。
われわれは、デザインの緊張軸によって組織された研究の議題を締めくくっている。
この貢献はエージェントハーネスの運用的定義であり、共有語彙を持ち、エンジニアリングの実践とエージェントシステムの科学的比較をガイドすることができる。
関連論文リスト
- Code as Agent Harness [107.31925305395957]
新興のエージェントシステムでは、コードはもはや単なる目標出力ではない。
コードはエージェントの推論、行動、環境モデリング、実行ベースの検証のための運用上の基盤としてますます役立っている。
この調査は、実行可能、検証可能、ステートフルなAIエージェントシステムに向けた統一されたロードマップを提供する。
論文 参考訳(メタデータ) (2026-05-18T17:59:03Z) - Code Broker: A Multi-Agent System for Automated Code Quality Assessment [0.0]
我々はGoogle Agent Development Kit ADKで構築されたマルチエージェントシステムであるCode Brokerを紹介する。
ファイル、ローカルディレクトリ、GitHubリポジトリからPythonコードを解析し、実行可能な品質評価レポートを生成する。
論文 参考訳(メタデータ) (2026-04-25T00:53:59Z) - Natural-Language Agent Harnesses [9.79040667445465]
我々は、編集可能な自然言語でハーネスを表現するtextbfNatural-Language Agent Harnesses (NLAHs) と、明示的なアーティファクト、耐久性のあるアダプタ、軽量アダプタを通じてこれらのハーネスを実行する共有ランタイム textbfIntelligent Harness (IHR) を紹介する。
論文 参考訳(メタデータ) (2026-03-26T17:58:15Z) - CodeScout: An Effective Recipe for Reinforcement Learning of Code Search Agents [43.426809750160665]
標準Unix端末にしか搭載されていない符号化エージェントをトレーニングして,強靭な結果が得られることを示す。
本研究は,コード検索,報酬設計,RL最適化のための既存のコーディングエージェント環境を再利用する技術に重点を置いている。
得られたモデルファミリであるCodeScoutと、コミュニティが構築するすべてのコードとデータをリリースします。
論文 参考訳(メタデータ) (2026-03-18T15:25:42Z) - An Agentic Evaluation Framework for AI-Generated Scientific Code in PETSc [7.236134946837382]
petscagent-benchはエージェント評価エージェントのパラダイムに基づいて構築されたエージェントフレームワークである。
正確性、パフォーマンス、コード品質、アルゴリズムの適切性、ライブラリ固有の規約の5つの評価カテゴリで14評価パイプラインを編成する。
本フレームワークは,HPC用PETScライブラリを用いて,現実的な問題のベンチマークスイート上で実演する。
論文 参考訳(メタデータ) (2026-03-16T22:46:10Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。