論文の概要: Oversight Has a Capacity: Calibrating Agent Guards to a Subjective, Fatiguing Human
- arxiv url: http://arxiv.org/abs/2606.08919v1
- Date: Mon, 08 Jun 2026 01:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.563809
- Title: Oversight Has a Capacity: Calibrating Agent Guards to a Subjective, Fatiguing Human
- Title(参考訳): 監視は能力を持つ: エージェント・ガードを主観的で不愉快な人間にキャリブレーションする
- Authors: Emre Turan,
- Abstract要約: エージェントは不可逆的な行動をとるので、標準的な安全パターンは、ループ内の人間承認ゲートである。
ゲートは容易な部分であり、難しい部分は、フィールドが2つの誤った仮定に対して評価する判断(どの行動を止めるか)である。
我々の貢献はオープンソースのエージェント監視システムであり、LLMエージェントアクションゲーティング環境でそれらを運用し、測定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM agents begin to take real, irreversible actions (shell commands, file edits, deploys), the standard safety pattern is a human-in-the-loop approval gate: risky actions pause and wait for a person. We argue the gate is the easy part; the hard part is the judgment - which actions to stop - which the field evaluates against two false assumptions: that there is a ground-truth notion of "risky," and that the human reviewer is a perfect, infinitely-available oracle. On a hand-labeled set of 125 adversarially-weighted agent actions we show that (i) reviewers only moderately agree on what is risky (Fleiss' kappa = 0.52), so there is no single correct label; (ii) framing the guard as selective classification under asymmetric cost makes its operating limits measurable, and on hard inputs the guard cannot safely auto-decide; and (iii) when the reviewer is modeled as endogenous (fatiguing as escalation load grows), realized safety becomes an inverted-U in the escalation rate: more human oversight can make a system less safe, and the safety-optimal guard escalates below full escalation - a setting a load-aware policy also uses to resist a flooding attack that slips a malicious action past a fatigued reviewer. Agent oversight, framed this way, is not only a classification problem but a resource-allocation one: human attention is finite, and the guard's escalation policy spends it. We claim none of these mechanisms as novel - fatigue-aware learning-to-defer (FALCON), cost-sensitive deferral under workload constraints (DeCCaF), trajectory-level guarding, and reviewer-fatigue/flooding attacks are all prior art we cite. Our contribution is an open-source agent-oversight system that operationalizes and measures them in the LLM-agent action-gating setting, turning "is my guard good?" from a guess into a curve. The inverted-U and the flooding attack are modeling results that motivate a human study.
- Abstract(参考訳): LLMエージェントが真に不可逆なアクション(シェルコマンド、ファイル編集、デプロイ)を取り始めると、標準的な安全パターンは、人間のループ内での承認ゲートである。
ゲートは容易な部分であり、難しい部分は、フィールドが2つの誤った仮定に対して評価する判断であり、それは「リスキー」という根本的真実の概念があり、人間のレビュアーは完璧で無限に利用可能な神託である、というものである。
125個の逆加重作用のハンドラベル集合について
(i)レビュアーは、リスクのあるものにのみ適度に同意する(Fleiss' kappa = 0.52)ので、単一の正しいラベルは存在しない。
二 非対称コストの選択的分類としてガードをフレーミングすることは、その動作限界を測定でき、かつ、ハードインプットにおいてガードは、安全かつ自己決定できない。
三 審査員が内因性(エスカレーション負荷の増加に満足する)としてモデル化された場合、安全性はエスカレーション率において逆Uとなり、より人間の監視によりシステムの安全性が低下し、安全最適ガードはフルエスカレーション以下にエスカレーションされる。
このようにフレーム化されたエージェント監視は、分類の問題だけでなく、リソース割り当ての問題である:人間の注意は有限であり、ガードのエスカレーションポリシーはそれを使う。
これらのメカニズムはいずれも,FALCON(Fref-aware Learning-to-defer),DeCCaF(DeccaF)によるコスト感性推論,トラジェクトリレベルのガード,レビュアー・ファレング/フローディングアタックなど,新しいものではない,と我々は主張する。
我々の貢献はオープンソースのエージェント監視システムで、LSMエージェントのアクションゲーティング設定でそれらを運用し、測定し、推測から曲線へと"私のガードは良いか?
逆Uと洪水攻撃は、人間の研究を動機づけるモデリング結果である。
関連論文リスト
- VLESA: Vision-Language Embodied Safety Agent for Human Activity Monitoring [60.53395558502203]
Vision-Language Embodied Safety Agent (VLESA)は、自我中心のビデオから人間の活動を監視する。
VLESAは、コンテキストに応じて同一のアクションが安全または危険である意図に依存した安全性に対処する。
目標を共同で推測し,映像から将来の行動を予測するための意図-行動予測エージェントを提案する。
論文 参考訳(メタデータ) (2026-06-02T17:42:17Z) - ROGUE: Misaligned Agent Behavior Arising from Ordinary Computer Use [40.024131729499494]
エージェントは,動作がタスク完了に有効である場合に,安全でない動作をとることによって,良質な設定でも不整合性を示すことができることを示す。
我々は、この障害モードを、人の修正、中断、シャットダウンに対処可能な安全装置である矯正レンズを通して研究する。
我々の研究は、自律エージェントにおける原理的、調整性を重視したアライメント手法の批判的な必要性を強調している。
論文 参考訳(メタデータ) (2026-05-29T20:29:35Z) - Human-Guided Harm Recovery for Computer Use Agents [7.834133575906748]
LMエージェントは、実際のコンピュータシステムでアクションを実行する能力を得る。
我々は、大規模に有害な行為を予防するだけでなく、予防に失敗した場合の害を効果的に軽減する方法が必要である。
我々は, ポストエグゼクティションの安全対策におけるこの無視された課題に対する解決策を, 損害回復として定式化する。
論文 参考訳(メタデータ) (2026-04-20T21:12:40Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - The Oversight Game: Learning to Cooperatively Balance an AI Agent's Safety and Autonomy [9.553819152637493]
エージェントが自律的に行動するか(プレイ)それとも延期するかを選択できる最小限の制御インタフェースについて検討する。
エージェントがフェールした場合、人間の選択によって結果が決定され、修正アクションやシステム停止につながる可能性がある。
本分析では,アライメント保証を提供するゲームクラスであるMarkov Potential Game (MPG) として,このゲームが適するケースに着目した。
論文 参考訳(メタデータ) (2025-10-30T17:46:49Z) - ManagerBench: Evaluating the Safety-Pragmatism Trade-off in Autonomous LLMs [48.50397204177239]
大きな言語モデル(LLM)が進化するにつれて、その行動の安全性を評価することが重要になる。
現実的な人為的な管理シナリオにおけるLCM意思決定を評価するベンチマークである ManagerBench を紹介する。
潜在的な害が無生物にのみ向けられる並列制御セットは、モデルのプラグマティズムを測定し、過度に安全である傾向を特定する。
論文 参考訳(メタデータ) (2025-10-01T13:08:33Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Safety Margins for Reinforcement Learning [53.10194953873209]
安全マージンを生成するためにプロキシ臨界度メトリクスをどのように活用するかを示す。
Atari 環境での APE-X と A3C からの学習方針に対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-07-25T16:49:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。