論文の概要: AgentTrust: A Self-Improving Trust Layer for AI-Agent Actions
- arxiv url: http://arxiv.org/abs/2606.08539v1
- Date: Sun, 07 Jun 2026 09:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.196786
- Title: AgentTrust: A Self-Improving Trust Layer for AI-Agent Actions
- Title(参考訳): AgentTrust: AIエージェントアクションのための自己改善型信頼層
- Authors: Chenglin Yang,
- Abstract要約: AgentTrust v2は、独自の意思決定の流れから自己進化する信頼層である。
自己学習裁判官は、語彙的脅威に対して成長する決定論的ルールフロアを蒸留し、意味的脅威に対してガードされたRAGメモリを供給する。
エンドツーエンドのオンラインリプレイでは、裁判官のコールレートが50%から44%低下し、裁判官のドメイン精度が71%から80%上昇し、45,000のアクションで0の良質なハードブロックが達成された。
- 参考スコア(独自算出の注目度): 2.9991161518367875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI agents increasingly take consequential actions -- shell commands, cloud operations, and arbitrary tool-calls -- so a trust layer must decide, per action, whether to allow, warn, block, or escalate. We argue that the right way to reason about such a layer is by threat type. Lexical (fixed-signature) threats, where danger lives in a stable token, are decidable by deterministic rules; semantic (intent-dependent) threats, where a benign and a malicious action share the same surface, are out of reach for rules by construction. We make this concrete with a negative proof: a determined, hand-authored cloud rule pack lifts held-out accuracy only 48 to 56% overall and moves the semantic categories by 0pp (data_db 29 to 29, observability 59 to 59, supply_chain 50 to 50), while a strong LLM judge carries exactly those categories. We give the judge a self-learning capability: on a corpus that is mainly semantic attacks it nearly doubles rule accuracy (48% to 83.6-85.2%) with near-zero false-blocks, and this holds across two model providers. We turn this into a self-improving dual-store system: the judge distills a growing deterministic rule floor on lexical threats (cheaper over time) and feeds a guarded RAG memory on semantic threats (a verdict-cache fails -- surface-twins collapse to ~58% -- so a corroboration guard lifts semantic accuracy +13pp, 70 to 84). The result is what sets AgentTrust v2 apart from its static v1 predecessor: a trust layer that self-evolves from its own stream of decisions -- cheaper on the lexical class (it distils its own rules) and smarter on the semantic class (it accrues guarded precedent), while never hard-blocking a benign action. An end-to-end online replay shows the judge-call rate falling (50% to 44%) and judge-domain accuracy rising (71% to 80%), with 0 benign hard-blocks across 45,000 actions.
- Abstract(参考訳): AIエージェントは、シェルコマンド、クラウド操作、任意のツールコールといった、連続的なアクションをますます受け入れているため、信頼層はアクション毎に、許可、警告、ブロック、エスカレートを判断しなければならない。
このようなレイヤを推論する正しい方法は、脅威タイプである、と私たちは主張する。
危険が安定なトークンに生息する語彙的(固定記号的)脅威は決定論的ルールによって決定可能である。
決定された、手で認可されたクラウドルールパックは、全体的な保持精度を48から56%上げ、セマンティックカテゴリを0pp(data_db 29から29、観測可能性59から59、サプライチェーン50から50)で移動させます。
主にセマンティックアタックであるコーパスでは、ルールの精度(48%から83.6-85.2%)をほぼゼロに近い偽ブロックで2倍にし、2つのモデルプロバイダにまたがる。
裁判官は、語彙的脅威(時間の経過とともにキーパー)で成長する決定論的ルールフロアを蒸留し、意味的脅威に対してガードされたRAGメモリを供給します(評定-キャッシュが失敗し、表面ツインが約58%崩壊します)。
これは、AgentTrust v2を、自身の決定ストリームから自己進化する信頼層 – 語彙クラスでは(独自のルールを廃止する)より安く、セマンティッククラスでは(前例は守られているが)より賢く、良心的なアクションをブロックすることはない。
エンドツーエンドのオンラインリプレイでは、裁判官のコールレートが50%から44%低下し、裁判官のドメイン精度が71%から80%上昇し、45,000のアクションで0の良質なハードブロックが達成された。
関連論文リスト
- The Capability Paradox: How Smarter Auditors Make Multi-Agent Systems Less Secure [11.822284421559814]
これは、有害な要求がドメイン固有の物語の中に隠され、Workerレポートを通じてマネージャに伝達される攻撃である。
労働者の能力が増加するにつれて、平均的なシステムレベルの攻撃成功率(ASR)は18.4%から63.9%に増加し、94.4%がピークである。
非対称なドメイン能力とWorkersのペアを組み合わさった異種アンサンブル検証を提案する。
論文 参考訳(メタデータ) (2026-05-17T14:42:44Z) - The Misattribution Gap: When Memory Poisoning Looks Like Model Failure in Agentic AI Systems [1.0262304700896199]
EmphSemantic Norm Drift (SND) をエージェント不正行為の第3の経路として定式化する。
SNDでは、ポリシーフォーマットの文書が通常のアップロードを通じて共有ベクターストアに入り、その後、信頼されたシステムコンテキストとして再現れる。
偽合成検査は87.5%の精度と偽陽性のゼロの因果関係を識別する。
論文 参考訳(メタデータ) (2026-05-12T20:21:47Z) - Making MLLMs Blind: Adversarial Smuggling Attacks in MLLM Content Moderation [54.38271718421492]
敵の密輸攻撃は人間とAIの能力ギャップを悪用する。
有害なコンテンツを人間の読みやすい視覚形式にエンコードする。
我々は緩和戦略の予備的な調査を行う。
論文 参考訳(メタデータ) (2026-04-08T11:13:16Z) - Sleeper Cell: Injecting Latent Malice Temporal Backdoors into Tool-Using LLMs [0.0]
オープンウェイト大規模言語モデル(LLM)はエージェントAIを民主化しているが、微調整されたウェイトは頻繁に共有され、リーダーボードのパフォーマンスを超えた限られた精査で採用されている。
これにより、サードパーティモデルが強力な行動保証なしで組み込まれるリスクが生じる。
有毒なモデルでは、良質なタスクに対して最先端のパフォーマンスを維持し、採用にインセンティブを与えていることを示す。
論文 参考訳(メタデータ) (2026-03-02T22:01:08Z) - A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness [57.510025257780306]
既存の検証プロトコルは、レッドチーム固有の分散シフトを考慮できないことを示す。
我々は、より一貫して判断可能な振る舞いのベンチマークであるReliableBenchと、判断失敗を公開するために設計されたデータセットであるJiceStressTestを提案する。
論文 参考訳(メタデータ) (2026-02-04T15:13:35Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Adapting Insider Risk mitigations for Agentic Misalignment: an empirical study [0.0]
エージェントミスアライメント(Agenic misalignment)は、ゴール指向のエージェントが、リスク目標の失敗ではなく、脅迫などの有害なアクションを行う場合に発生する。
我々はインサイダーリスク制御設計に適応し、ストレスに直面するときの安全対策に向けてステアエージェントを操る予防的操作制御を開発する。
論文 参考訳(メタデータ) (2025-10-06T13:37:33Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。