論文の概要: The Cold-Start Safety Gap in LLM Agents
- arxiv url: http://arxiv.org/abs/2606.07867v1
- Date: Fri, 05 Jun 2026 21:58:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.495475
- Title: The Cold-Start Safety Gap in LLM Agents
- Title(参考訳): LLM剤のコールドスタート安全ギャップ
- Authors: Chung-En Sun, Linbo Liu, Tsui-Wei Weng,
- Abstract要約: 会話を通して、ツールコールエージェントが等しく安全かどうかを調査する。
セッションの開始時に最も脆弱で、いくつかの通常のエージェントタスクの後、かなり安全になる。
我々は、安全クリティカルな要求に晒される前に、エージェントにいくつかの通常のエージェントタスクを完了させることを推奨する。
- 参考スコア(独自算出の注目度): 25.95386115331387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Are tool-calling LLM agents equally safe throughout a conversation? We discover they are not: agents are most vulnerable at the very start of a session and become substantially safer after a few regular agentic tasks -- a phenomenon we term the cold-start safety gap. To study this systematically, we introduce Safety Over Depth for Agents (SODA), a benchmark that controls how many regular agentic tasks the agent completes before encountering a safety threat, supporting up to 20 preceding tasks. Evaluating 7 models from 4 families, safety improves by 9--52% as the number of preceding regular agentic tasks increases from zero to twenty. Representation analysis confirms that model hidden states gradually shift toward a safety-aligned region as more preceding tasks are present. By systematically studying which part of the preceding conversation matters most, we find that the regular agentic tasks themselves are the primary driver of safety, while the agent's own prior responses have less effect on safety but are essential for preserving later utility. This conclusion is further supported by evaluation on open-source safety benchmarks (AgentHarm, Agent Safety Bench) and utility benchmarks (BFCL, API-Bank), confirming that warming up the agent with regular agentic tasks before deployment makes it safer and preserves full capability. Based on these findings, we recommend a simple deployment strategy: having the agent complete a few regular agentic tasks before possible exposure to safety-critical requests mitigates the cold-start safety gap. Our code is available at https://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gap
- Abstract(参考訳): ツールコールのLLMエージェントは、会話を通して同じように安全か?
エージェントはセッションの開始時に最も脆弱で、いくつかの通常のエージェントタスクの後、実質的に安全になる。
これを体系的に研究するために、エージェントのための安全度(SODA:Safety Over Depth for Agents)というベンチマークを導入する。
4つのファミリーから7つのモデルを評価すると、前の通常のエージェントタスクの数が0から20に増加するため、安全性が9~52%向上する。
表現分析により、モデル隠れ状態は、より先行したタスクが存在するため、徐々に安全に整合した領域へと移行することを確認する。
前回の会話のどの部分が最も重要かを体系的に研究することにより、通常のエージェントタスク自体が安全の第一の要因であるのに対し、エージェントの以前の反応は安全性にはあまり影響しないが、後続のユーティリティの保存には不可欠であることがわかった。
この結論はさらに,オープンソース安全ベンチマーク(AgentHarm, Agent Safety Bench)とユーティリティベンチマーク(BFCL, API-Bank)の評価によって支持されている。
これらの知見に基づいて、エージェントにいくつかの通常のエージェントタスクを完了させ、可能な限り安全クリティカルな要求に曝すことで、コールドスタートの安全性のギャップを緩和する、簡単なデプロイメント戦略を推奨する。
私たちのコードはhttps://github.com/Trustworthy-ML-Lab/Agent-Cold-Start-Safety-Gapで利用可能です。
関連論文リスト
- Why Does Agentic Safety Fail to Generalize Across Tasks? [3.5870827272767496]
AIエージェントは、テスト時に実行するタスクが指定されるマルチタスク設定にますますデプロイされ、エージェントは見えないタスクに一般化されなければならない。
実証的な証拠は、実行能力が目に見えないタスクに一般化しても、安全に実行できることは、頻繁に実行できないことを示唆している。
本稿では, エージェントセーフティの失敗が, 訓練方法の限界に起因しているだけでなく, 安全性自体の本質的な性質を反映していることを示す理論と実験について述べる。
論文 参考訳(メタデータ) (2026-05-07T22:16:03Z) - ToolSafe: Enhancing Tool Invocation Safety of LLM-based agents via Proactive Step-level Guardrail and Feedback [53.2744585868162]
エージェントのデプロイには、ステップレベルのツールの実行動作をリアルタイムで監視することが不可欠だ。
LLMエージェントにおけるステップレベルツール起動安全検出のための新しいベンチマークであるTS-Benchを構築した。
次に,マルチタスク強化学習を用いたガードレールモデルTS-Guardを開発した。
論文 参考訳(メタデータ) (2026-01-15T07:54:32Z) - Too Helpful to Be Safe: User-Mediated Attacks on Planning and Web-Use Agents [3.7549350220109274]
我々は、不正なユーザーを騙して信頼できないコンテンツや攻撃者が制御するコンテンツをエージェントに中継する、ユーザー介在型攻撃について研究する。
サンドボックス環境における12の商業エージェントの系統的評価を行う。
以上の結果から,エージェントはデフォルトでは安全でありすぎることが示唆された。
論文 参考訳(メタデータ) (2026-01-14T03:29:13Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - GuardAgent: Safeguard LLM Agents by a Guard Agent via Knowledge-Enabled Reasoning [79.07152553060601]
安全ガード要求を満たすか否かを動的に確認し,目標エージェントを保護する最初のガードレールエージェントであるガードアジェントを提案する。
特にGuardAgentは、まず安全ガードの要求を分析してタスクプランを生成し、それからその計画をガードレールコードにマップして実行します。
GuardAgentは、それぞれ98%と83%のガードレール精度を持つ2つのベンチマークにおいて、異なる種類のエージェントに対する違反行為を効果的に抑制することを示した。
論文 参考訳(メタデータ) (2024-06-13T14:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。