論文の概要: Power Systems Agent Benchmark: Executable Evaluation of AI Agents in Electric Power Engineering
- arxiv url: http://arxiv.org/abs/2606.20950v1
- Date: Thu, 18 Jun 2026 21:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:44:57.493133
- Title: Power Systems Agent Benchmark: Executable Evaluation of AI Agents in Electric Power Engineering
- Title(参考訳): 電力システムエージェントベンチマーク:電力工学におけるAIエージェントの実行可能性評価
- Authors: Sergei Trashchenkov,
- Abstract要約: 本稿では,パワーエンジニアリングエージェントのベンチマークであるPower Systems Agent Benchmarkを紹介する。
エージェントは構造化されたタスクを受け取り、構造化されたソリューションを返す。
このベンチマークには、電力フローと保護から安定性、マイクログリッド、信頼性、電力品質、予測に至るまで、電力工学の8分野にわたる41のタスクファミリが含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Executable evaluation -- checking the consequences of an agent's actions with a program rather than grading its prose -- has become a prominent way to assess tool-using AI agents in software settings. Electric power engineering has not yet had an analogous benchmark: language-model use is still dominated by retrieval and text question answering, while agents acting on power-system artifacts remain mostly academic prototypes. We introduce the Power Systems Agent Benchmark, an executable benchmark for power-engineering agents. An agent receives a structured task and returns a structured solution; a deterministic evaluator recomputes the engineering quantities, checks operational constraints, and returns a feasibility flag, a normalized score, and explicit violations. The benchmark contains 41 task families across eight areas of power engineering, from power flow and protection to stability, microgrids, reliability, power quality, and forecasting. Each task is grounded in a citable source, standard, or documented engineering formulation. To resist contamination, held-out cases are synthesized on demand by per-family generators from private seeds: the construction is inspectable, but the instances remain private. In a reference evaluation with three command-line agents, the strongest score near the compact tier's ceiling, a smaller open model trails, and public and held-out performance are broadly consistent; a separate public-split grid with OpenCode and Aider probes harness effects. The reference evaluation doubles as quality control: unanimous failures flag candidate task or evaluator defects, and it exposed a latent evaluator bug missed by self-consistency checks. The evaluators are compact deterministic surrogates, but the task contract allows their internals to be upgraded to simulator-backed checks without changing how tasks are posed or solved.
- Abstract(参考訳): 実行可能な評価 -- プログラムでエージェントのアクションの結果をチェックする -- は、ソフトウェア設定でツールを使用するAIエージェントを評価する際、顕著な方法となっている。
言語モデルの使用は依然として検索とテキスト質問の回答が支配的であり、一方、電力系統の人工物に作用するエージェントはほとんどが学術的なプロトタイプである。
本稿では,パワーエンジニアリングエージェントのベンチマークであるPower Systems Agent Benchmarkを紹介する。
エージェントは構造化されたタスクを受け取り、構造化されたソリューションを返す。決定論的評価器は、エンジニアリング量を再計算し、運用上の制約をチェックし、実行可能性フラグ、正規化スコア、明示的な違反を返す。
このベンチマークには、電力フローと保護から安定性、マイクログリッド、信頼性、電力品質、予測に至るまで、電力工学の8分野にわたる41のタスクファミリが含まれている。
各タスクは、決定可能なソース、標準、あるいはドキュメント化されたエンジニアリングの定式化に基礎を置いている。
汚染を抑えるため、保留ケースはプライベートシードから家庭ごとのジェネレータによってオンデマンドで合成される。
3つのコマンドラインエージェントによる参照評価では、コンパクト層の天井付近で最強のスコア、より小さなオープンモデルトレイル、パブリックとホールドアウトのパフォーマンスは、広く一致している。
基準評価は品質管理として2倍になる: 一致した障害は、候補タスクまたは評価対象の欠陥をフラグ付けし、自己整合性チェックで見逃された潜在的評価対象のバグを露呈する。
評価者は、コンパクトな決定論的サロゲートであるが、タスク契約により、タスクの配置や解決方法を変更することなく、内部をシミュレータが支援するチェックにアップグレードすることができる。
関連論文リスト
- The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development? [80.24951682268332]
本稿では,自律エージェント開発のためのフロンティアモデルのキャパシティをテストするための評価フレームワークであるMeta-Agent Challenge(MAC)を紹介する。
評価の整合性を確保するため、このフレームワークは報奨ハッキングに対する多層防御によって確保される。
メタエージェントは人間工学的な基本方針とほとんど一致せず、その一部はプロプライエタリなフロンティアモデルに支配されている。
論文 参考訳(メタデータ) (2026-06-03T04:58:17Z) - SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents [15.669318649782285]
我々は、統一されたプロトコルの下でスキル生成パイプラインを評価するためのベンチマークであるSkillGenBenchを紹介する。
ジェネレータは生のコーパスを受け取り、標準化されたスキルアーティファクトを生成し、固定ハーネスの下で実行される。
様々なスキルジェネレーション手法とバックボーンの実験は、かなりの性能変化を示している。
論文 参考訳(メタデータ) (2026-05-18T17:28:36Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - AgentReputation: A Decentralized Agentic AI Reputation Framework [3.6704226968275253]
我々はエージェントAIシステムのための分散3層評価フレームワークである textbfAgentReputation を提案する。
このフレームワークは、タスク実行、評価サービス、タンパー保護の永続化を分離し、それぞれの強みを活用し、独立した進化を可能にする。
定量化において、AgentReputationはリソース割り当て、アクセス制御、適応的な検証エスカレーションをサポートする決定対応のポリシーエンジンを提供する。
論文 参考訳(メタデータ) (2026-04-30T12:33:39Z) - EmbodiedGovBench: A Benchmark for Governance, Recovery, and Upgrade Safety in Embodied Agent Systems [14.412476605788482]
EmbodiedGovBenchは、エンボディエージェントシステムのガバナンス指向評価のためのベンチマークである。
現実的な摂動の下で、システムは制御可能か、ポリシーに縛られたか、回復可能か、監査可能か、進化安全かを評価する。
論文 参考訳(メタデータ) (2026-04-13T08:34:04Z) - Clawed and Dangerous: Can We Trust Open Agentic Systems? [12.04979073308511]
オープンエージェントシステムは、プランニングを外部機能、永続メモリ、特権実行と組み合わせる。
本稿では,6次元分析分類法を導入し,攻撃,ベンチマーク,防衛,監査,隣接技術基盤にまたがる50の論文を合成する。
文献は攻撃特性とベンチマーク構築において比較的成熟しているが,デプロイメントコントロールや運用管理,永続的メモリの完全性,能力回復には依然として弱いことが,我々のレビューで示されている。
論文 参考訳(メタデータ) (2026-03-27T09:45:12Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - The Geometry of Benchmarks: A New Path Toward AGI [0.0]
本稿では,AIエージェントのすべての心理測定バッテリーを,構造化されたモジュライ空間の点として扱う幾何学的枠組みを提案する。
まず、測定可能なパフォーマンスに基づいて、Kardashevスタイルの自律性階層であるAutonomous AI(AAI)スケールを定義します。
第二に、バッテリーのモジュライ空間を構築し、エージェントの順序や能力推定のレベルで区別できないベンチマークの等価クラスを特定する。
第3に、強化学習、自己再生、討論、検証に基づく微調整を前提としたジェネラルジェネレータ-検証更新演算子(GVU)を導入する。
論文 参考訳(メタデータ) (2025-12-03T21:34:09Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。