論文の概要: CFAgentBench: A Reproducible Environment and Benchmark for Autonomous Construction-Finance Agents
- arxiv url: http://arxiv.org/abs/2606.22000v1
- Date: Sat, 20 Jun 2026 11:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 23:16:52.507685
- Title: CFAgentBench: A Reproducible Environment and Benchmark for Autonomous Construction-Finance Agents
- Title(参考訳): CFAgentBench: 再現可能な環境と自律的構築支援エージェントのベンチマーク
- Authors: Rishi Srivastava,
- Abstract要約: CFAgentBenchは、自律的な建設ファイナンスエージェントのベンチマークである。
8つのドメインと77のファミリーにまたがる1014のマシングレード可能なタスク仕様を含んでいる。
最強のエージェントはpass1 = 0.67に達するが、pass5 = 0.38のみである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CFAgentBench, a reproducible, self-hostable environment and benchmark for autonomous construction-finance agents: a CFO/controller-class agent operating across the real software stack a US construction finance team runs - ERP, project management, email, documents, pay applications, payroll, certified payroll, lien waivers, and bank/treasury portals. It contains 1,014 machine-gradeable task specifications across 8 domains and 77 families, every family grounded in a real source; a self-validated subset of 40 tasks (54 with a project-management extension) is compiled into oracle-validated executable evaluators, the runnable suite reported here. Following WebArena, the benchmark runs on an executable environment rather than static traces: 35 mock applications (31 reconciled to one company book, plus 4 PM platforms) over 9 archetypes, each implementing a uniform self-hostable app contract, so every task is graded by functional correctness - a state diff plus forbidden-side-effect checks plus required-output regexes - with an LLM judge used only for reply quality, never as reward. A distinguishing principle is a money-movement guard: 278 instances embed a payment, payroll, e-signature, or e-filing step where the correct behavior is to stop and stage for human approval, and executing even the correct transaction fails the task. The public split (n=711) is sized for a 95% Wilson half-width of +/-4.1%; a private, contamination-protected split (n=303) is reserved for remote scoring. In a first three-model open-weight sweep (k=5), the strongest agent reaches pass^1 = 0.67 but only pass^5 = 0.38 - losing 43% of its successes when required to repeat them under temperature-0 decoding. The within-model pass^1 to pass^5 collapse and sharp per-domain heterogeneity are clear evidence that single-attempt accuracy overstates deployable construction-finance competence.
- Abstract(参考訳): CFAgentBenchは、自律的な建設ファイナンスエージェントのための再現可能で自己ホスト可能な環境とベンチマークである。 CFO/コントローラクラスのエージェントで、実際のソフトウェアスタックをまたいで運用されている 建設財務チーム - ERP、プロジェクト管理、Eメール、ドキュメント、有料アプリケーション、給与、認定給与、ライエンウェイバー、銀行/宝くじポータル。
8つのドメインと77のファミリーにまたがる1014のマシングレード可能なタスク仕様が含まれており、すべての家族が実際のソースに基盤を置いており、40タスクの自己検証サブセット(プロジェクト管理拡張付き54)が、オラクル検証可能な実行可能な評価ツールにコンパイルされる。
35のモックアプリケーション(31は1つの会社の本にまとめられ、4 PMプラットフォーム) 9つのアーキタイプで、それぞれが均一な自己ホスト可能なアプリケーションコントラクトを実装しているため、すべてのタスクは機能的正当性 – 状態差分+禁じられたサイドエフェクトチェックと必要出力リジェクシス – によってグレードされる。
278のインスタンスが支払い、給与、e-signature、またはe-filingのステップを埋め込む。
パブリックスプリット(n=711)は、95%ウィルソン半幅+/-4.1%、プライベートな汚染保護スプリット(n=303)はリモートスコアに予約されている。
最初の3モデルオープンウェイト・スイープ(k=5)では、最強のエージェントはパス^1 = 0.67に達するが、パス^5 = 0.38にしか達せず、温度0デコードで繰り返す必要があると、その成功の43%を失う。
モデル内パス^1からパス^5の崩壊とドメイン単位の急激な不均一性は、単一対向精度オーバーステートが展開可能な構成・ファイナンス能力を示す明確な証拠である。
関連論文リスト
- Do More Agents Help? Controlled and Protocol-Aligned Evaluation of LLM Agent Workflows [8.909548943361637]
BenchAgentは、単一エージェント、固定マルチエージェント(MAS)、および1つの正規化された実行およびロギングプロトコルの下でMASを進化させる。
BenchAgentは、GPT-4.1で10の推論、コーディング、ツール使用ベンチマークでこれらの基質内部を評価する。
PAE GAIAスナップショットでは、Claude-Codeスタイルのランタイムワークフローが全体の66.72%、Level 3では69.23%に達した。
論文 参考訳(メタデータ) (2026-06-04T03:50:47Z) - Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study [0.0]
私たちは、アフィンのオーナシップを運用するRustクレートを構築して、クローン、ダブルスペンディング、あるいは予算の使用を委譲することで、オペレータが避けなければならないランタイムのハザードではなくコンパイルエラーを発生させます。
5つのランタイム、3つのプロバイダ、温度階層化されたライブAPIテストで、このアプローチでは、コンカレントワークと同等の動作で、キャップ違反がゼロで、偽の拒否がゼロであることを報告している。
論文 参考訳(メタデータ) (2026-06-02T10:46:57Z) - CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows? [150.84850629123287]
現実的な医療業務のエンドツーエンドの自動化は、現在のベンチマークで不足している3つの機能を強調します。
$-Benchは3つのドメインにわたる長期医療のベンチマークである。
30以上のエージェントハーネス/モデル構成で、最高のエージェントはタスクの28.0%しか解決せず、厳格なパス3では20%をクリアし、単一のセッションですべてのタスクを実行するとパフォーマンスは3.8%に低下する。
論文 参考訳(メタデータ) (2026-05-15T22:34:31Z) - ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Towards Optimal Agentic Architectures for Offensive Security Tasks [3.93181912653522]
20のインタラクティブなターゲット(Web/API10とバイナリ10)のベンチマークを導入する。
それぞれ、ホワイトボックスとブラックボックスモードで評価された、ワンリーチ可能な地上真実の脆弱性を露呈する。
MAS-Indepは最も高い検出率(64.2%)を獲得し、SASは最も高い効率のベースラインである0.058ドルである。
論文 参考訳(メタデータ) (2026-04-20T18:17:51Z) - HiveMind: OS-Inspired Scheduling for Concurrent LLM Agent Workloads [0.0]
モチベーションのインシデントでは、11の並列エージェントのうち3つがコネクションリセットとHTTP 502エラーで死亡しました。
HIVEMINDは5つのOSにインスパイアされたスケジューリングプリミティブを適用し,非協調並列実行による障害モードを除去する透過的なHTTPプロキシである。
論文 参考訳(メタデータ) (2026-04-18T18:59:33Z) - Capable but Unreliable: Canonical Path Deviation as a Causal Mechanism of Agent Failure in Long-Horizon Tasks [0.38991526486631006]
信頼性障害の多くは、タスクの潜在解構造からのドリフトに起因するものであり、能力障害ではない、と我々は主張する。
我々は、モデル能力と作業難易度を維持できる自然実験を用いて、これを因果的に確立する。
論文 参考訳(メタデータ) (2026-02-22T02:37:57Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。