論文の概要: Beyond Goodhart's Law: A Dynamic Benchmark for Evaluating Compliance in Multi-Agent Systems
- arxiv url: http://arxiv.org/abs/2606.07805v1
- Date: Fri, 05 Jun 2026 19:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.405567
- Title: Beyond Goodhart's Law: A Dynamic Benchmark for Evaluating Compliance in Multi-Agent Systems
- Title(参考訳): Goodhartの法則を超えて:マルチエージェントシステムにおけるコンプライアンス評価のための動的ベンチマーク
- Authors: Yiyang Zhao, Zhuo Zhang, Qingxuan Le, Lizhen Qu, Zenglin Xu,
- Abstract要約: 本稿では,現実的な圧力下でのマルチエージェントシステムの手続き的アライメントを評価するために設計された,動的で対向的なベンチマークであるMAC-Benchを紹介する。
コンプライアンス・ウェイト・サクセス・レート(CSR)とマキアベリアン・ギャップ(MG)という新しい指標を紹介します。
我々は、成功とコンプライアンスの間の広範にわたるトレードオフを明らかにするために、最先端フロンティアモデルの包括的な評価を行う。
- 参考スコア(独自算出の注目度): 45.89982596338141
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of Large Language Models (LLMs) from passive assistants to autonomous, execution-capable agents has introduced critical operational risks. Most current evaluation frameworks neglect procedural compliance, leading to ''Machiavellian'' behaviors where agents strategically violate safety rules to maximize rewards - a direct manifestation of Goodhart's Law. To address this blind spot, we introduce MAC-Bench, a dynamic, adversarial benchmark designed to evaluate the procedural alignment of multi-agent systems under realistic pressure. We propose the SERV(Seed - Evolve - Refine - Verify) pipeline, an ``Agent-as-a-Benchmark'' paradigm that transforms unstructured legal texts into executable, contamination-free scenarios. By synthesizing holographic sandbox environments and injecting calibrated social-engineering pressure vectors, MAC-Bench forces agents into Pareto-optimal trade-offs between task success and regulatory adherence. We introduced novel metrics: the Compliance-Weighted Success Rate (CSR) and the Machiavellian Gap (MG), and conducted a comprehensive evaluation of state-of-the-art frontier models to reveal the pervasive trade-offs between success and compliance.
- Abstract(参考訳): 受動的アシスタントから自律的な実行可能なエージェントへの大規模言語モデル(LLM)の急速な進化は、重要な運用リスクをもたらしている。
現在のほとんどの評価フレームワークは手続き的コンプライアンスを無視しており、グッドハートの法則の直接的な宣言である、報酬を最大化するために安全規則を戦略的に違反する「マキアベリアン」の行動につながっている。
この盲点に対処するために,現実的な圧力下でのマルチエージェントシステムの手続き的アライメントを評価するために設計された,動的で敵対的なベンチマークであるMAC-Benchを導入する。
提案するSERV(Seed - Evolve - Refine - Verify)パイプラインは 'Agent-as-a-Benchmark'' パラダイムで,構造化されていない法律文を,実行可能かつ汚染のないシナリオに変換する。
ホログラフィックサンドボックス環境を合成し、校正された社会工学的圧力ベクトルを注入することにより、MAC-Benchはエージェントをタスク成功と規制遵守の間のパレート最適トレードオフに強制する。
我々は,CSR(Compliance-Weighted Success Rate)とMG(Machiavellian Gap)という新たな指標を導入し,最先端フロンティアモデルの包括的評価を行い,成功とコンプライアンスの広範なトレードオフを明らかにした。
関連論文リスト
- Plan First, Judge Later, Run Better: A DMAIC-Inspired Agentic System for Industrial Anomaly Detection [51.90293101535452]
本稿では, DMAIC-IAD (DMAIC-inspired Agentic Industrial Anomaly Detection) というマルチエージェントシステムを提案する。
DMAIC-IADは,適用対象のエージェントベースラインに対する平均検出性能を37.76%向上させる。
論文 参考訳(メタデータ) (2026-06-03T08:38:14Z) - The Meta-Agent Challenge: Are Current Agents Capable of Autonomous Agent Development? [80.24951682268332]
本稿では,自律エージェント開発のためのフロンティアモデルのキャパシティをテストするための評価フレームワークであるMeta-Agent Challenge(MAC)を紹介する。
評価の整合性を確保するため、このフレームワークは報奨ハッキングに対する多層防御によって確保される。
メタエージェントは人間工学的な基本方針とほとんど一致せず、その一部はプロプライエタリなフロンティアモデルに支配されている。
論文 参考訳(メタデータ) (2026-06-03T04:58:17Z) - AgenticSimLaw: A Juvenile Courtroom Multi-Agent Debate Simulation for Explainable High-Stakes Tabular Decision Making [0.6218206949753592]
我々はAgenticSimLawを紹介した。これは、透明で制御可能なテストタイム推論を提供するロール構造化マルチエージェントの議論フレームワークである。
ブラックボックスアプローチとは異なり、裁判所スタイルのオーケストレーションでは、エージェントの役割を明確に定義しています。
NLSY97データセットを用いて、この枠組みを若者の復習予測にベンチマークする。
論文 参考訳(メタデータ) (2026-01-29T16:26:10Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Safe and Compliant Cross-Market Trade Execution via Constrained RL and Zero-Knowledge Audits [0.5586191108738564]
本稿では、厳格なコンプライアンスの実施と実行品質のバランスをとるクロスマーケットアルゴリズムトレーディングシステムを提案する。
アーキテクチャは、高レベルプランナー、強化学習実行エージェント、独立コンプライアンスエージェントを含む。
対t検定による95%信頼度レベルへの影響を報告し,CVaRによる尾部リスクの検討を行った。
論文 参考訳(メタデータ) (2025-10-06T15:52:12Z) - Towards Self-Evolving Benchmarks: Synthesizing Agent Trajectories via Test-Time Exploration under Validate-by-Reproduce Paradigm [60.36837655498119]
本稿では,トラジェクトリをベースとしたエージェント・ベンチマーク・複雑度進化フレームワークを提案する。
このフレームワークは、既存のベンチマークから元のタスクを受け取り、エージェントがそれをより難しい新しいタスクに進化させるよう促す。
GAIAベンチマークの実験では、TRACEフレームワークはタスクの複雑さを継続的に向上し、正確性の信頼性を向上させる。
論文 参考訳(メタデータ) (2025-10-01T01:52:52Z) - Governance-as-a-Service: A Multi-Agent Framework for AI System Compliance and Policy Enforcement [0.0]
ガバナンス・アズ・ア・サービス(Government-as-a-Service:G)は、エージェントのアウトプットを実行時に規制するポリシー駆動の執行層である。
Gは宣言的ルールと、違反のコンプライアンスと深刻度に基づいてエージェントをスコアするTrust Factorメカニズムを採用している。
その結果、Gはスループットを保ちながら高いリスクの振る舞いを確実にブロックまたはリダイレクトすることを示した。
論文 参考訳(メタデータ) (2025-08-26T07:48:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。