論文の概要: VESTA: A Fully Automated Scenario Generation and Safety Evaluation Framework for LLM Agents
- arxiv url: http://arxiv.org/abs/2606.08531v1
- Date: Sun, 07 Jun 2026 09:23:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.18827
- Title: VESTA: A Fully Automated Scenario Generation and Safety Evaluation Framework for LLM Agents
- Title(参考訳): VESTA: LLMエージェントのための完全に自動化されたシナリオ生成と安全性評価フレームワーク
- Authors: Lu Jia, Haibo Tong, Feifei Zhao, Jindong Li, Dongqi Liang, Ping Wu, Qian Zhang, Yi Zeng,
- Abstract要約: 大規模言語モデル(LLM)のための完全に自動化されたシナリオ生成と安全性評価フレームワークであるVESTAを紹介する。
VESTAは、現実世界のタスク実行における抽象的かつ多様な安全性リスクを1,072の計測可能な評価シナリオに即時化する。
その結果、現在のエージェントはタスク実行中に重大な行動安全リスクに直面しており、平均的なASRは47.1%、いくつかのモデルは70%を超えている。
- 参考スコア(独自算出の注目度): 7.980753712857791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly evolving from simple text-based interaction systems into LLM agents that can maintain memory, use tools, access external environments, and execute tasks. As their capabilities and autonomy expand, the safety risks they face also become more diverse. Existing evaluations often rely on manually written scenarios, static prompts, or final-output judgments, making it difficult to capture the diverse risks that agents may face during task execution. We introduce VESTA, a fully automated scenario generation and safety evaluation framework for LLM agents. Based on five risk dimensions, VESTA instantiaes abstract and diverse safety risks in real-world task execution into 1,072 measurable evaluation scenarios. Using the automated evaluation pipeline, 12 LLM agents are evaluated under two authority contexts. The results show that current agents still face substantial behavioral safety risks during task execution, with an average ASR of 47.1% and several models exceeding 70%. These findings demonstrate the importance of executable, process-level evaluation for understanding and improving LLM agent safety.
- Abstract(参考訳): 大規模言語モデル(LLM)は、単純なテキストベースのインタラクションシステムから、メモリの維持、ツールの使用、外部環境へのアクセス、タスクの実行が可能なLLMエージェントへと進化しつつある。
能力と自律性が拡大するにつれて、彼らが直面する安全リスクもより多様になる。
既存の評価は、しばしば手書きのシナリオ、静的なプロンプト、最終的なアウトプット判断に依存しており、タスク実行中にエージェントが直面する様々なリスクを捉えることは困難である。
LLMエージェントのための完全に自動化されたシナリオ生成および安全性評価フレームワークであるVESTAを紹介する。
VESTAは5つのリスク次元に基づいて、現実のタスク実行における抽象的で多様な安全性リスクを1,072の計測可能な評価シナリオに即時化する。
自動評価パイプラインを用いて、12個のLLMエージェントを2つの権限条件下で評価する。
その結果、現在のエージェントはタスク実行中に重大な行動安全リスクに直面しており、平均的なASRは47.1%、いくつかのモデルは70%を超えている。
これらの結果から, LLMエージェントの安全性の理解と改善のために, 実行可能なプロセスレベルの評価の重要性が示唆された。
関連論文リスト
- SeClaw: Spec-Driven Security Task Synthesis for Evaluating Autonomous Agents [87.26967184869198]
SeClawは、仕様駆動のセキュリティタスク合成と、自律エージェントの実行ベースのセキュリティ評価を組み合わせたフレームワークである。
ベンチマークは、リソース、ユーザタスク、環境、本質的なエージェントの振る舞いから生じるリスクをカバーしている。
論文 参考訳(メタデータ) (2026-06-01T14:23:42Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - AgentAuditor: Human-Level Safety and Security Evaluation for LLM Agents [48.925168866726814]
AgentAuditorは、トレーニングなし、メモリ拡張推論フレームワークである。
ASSEBenchは、LLMベースの評価器が安全リスクとセキュリティ上の脅威の両方を見つけることができるかを確認するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-31T17:10:23Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - SafeAgentBench: A Benchmark for Safe Task Planning of Embodied LLM Agents [58.65256663334316]
我々は,対話型シミュレーション環境におけるLLMエージェントの安全性を考慮したタスク計画のための最初のベンチマークであるSafeAgentBenchを紹介する。
SafeAgentBenchは、(1)10の潜在的な危険と3つのタスクタイプをカバーするために厳格にキュレートされた750のタスクの実行可能な多種多様な高品質データセット、(2)低レベルコントローラを備えた普遍的な実施環境、9つの最先端ベースラインに対して17のハイレベルアクションでマルチエージェント実行をサポートするSafeAgentEnv、(3)実行とセマンティックの両方の観点から信頼性の高い評価方法を含む。
論文 参考訳(メタデータ) (2024-12-17T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。