論文の概要: When Should Agent Trust Be Conditional? Characterizing and Attacking Skill-Conditional Reputation in Agent Swarms
- arxiv url: http://arxiv.org/abs/2606.14200v1
- Date: Fri, 12 Jun 2026 07:32:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 16:00:42.79928
- Title: When Should Agent Trust Be Conditional? Characterizing and Attacking Skill-Conditional Reputation in Agent Swarms
- Title(参考訳): エージェントはいつ信頼を条件づけるべきか? : エージェント・スワムにおけるスキル・コンディショナル・レポテーションの特性と攻撃
- Authors: Yihan Xia, Taotao Wang,
- Abstract要約: オープンプラットフォームは、異種エージェント間でタスクをルーティングする傾向にある。
標準評価アプローチは、各エージェントを単一のグローバル信頼スコアで要約する。
技能条件信頼度R(i | k)について検討する。
攻撃者が1つのスキルで安価な証拠を持っていて、ターゲットスキルに誰も条件付きルータをハイジャックしていないことを示す。
- 参考スコア(独自算出の注目度): 4.9833735627186435
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open platforms increasingly route tasks among heterogeneous LLM agents--differing in base model, scaffold, and tool stack--whose competence varies sharply by skill: an agent excellent at one skill may be useless at another. The standard reputation approach summarizes each agent by a single global trust score, but that scalar is the wrong object here, because routing every task to the globally most-trusted agent leaves the value of specialization unclaimed. We study skill-conditional trust R(i | k)--the trust to place in agent i for a task requiring skill k, rather than one score per agent--and pose three falsifiable questions: when is conditioning worth it, how much cross-skill evidence should be borrowed, and whether that borrowing is safe. A controlled phase-diagram analysis answers the first two: conditional trust wins only in a specific regime--high agent heterogeneity, sparse per-skill evidence, and correlated skills--and the coupling strength beta that buys this data efficiency is dual-use, because the same cross-skill borrowing is also a laundering channel. On a public benchmark of 14 genuinely heterogeneous AppWorld agents, real pools land inside the beneficial regime--a small but genuine gain, with the per-skill best agent genuinely changing across skills. We then show that an attacker with cheap evidence in one skill and none in a target skill hijacks the conditional router, driving routing regret from 0 to 0.94 on a pool our zero-cost Conditional Information Value Test (CIVT) rates GREEN--while the ungated trust verdict it contaminates reads -0.06 instead of the honest +0.19. A zero-evidence gate bounds the attack but does not eliminate it; we characterize the residual cost under an explicit budget. We do not claim Sybil-resistance--we quantify the trade-off.
- Abstract(参考訳): オープンプラットフォームは、多種多様なLLMエージェントの間でタスクをルーティングする傾向が強まり、ベースモデル、足場、ツールスタックの拡散は、スキルによって大きく異なる。
標準的な評価手法は、各エージェントを単一のグローバル信頼スコアで要約するが、スカラーが間違った対象である。
我々は,エージェント i にエージェント i を置くための信頼度を,エージェント 1 個につき 1 点ではなく 1 点ではなく k 点に設定する信頼度について検討し,条件付けの価値がいつあるか,クロススキルの証拠をどの程度借りるべきか,その借り入れが安全か,という,3 点の有望な疑問を提起する。
条件付き信頼は特定の制度でのみ勝つ - ハイエージェントの不均一性、スキルごとのスパースエビデンス、相関スキル - そして、このデータ効率を買う結合強度ベータは、同じクロススキルの借入も洗浄チャネルであるため、二重用途である。
真に異質なAppWorldエージェント14の公開ベンチマークでは、本物のプールが有益な体制の中に置かれている。
そして、攻撃者が1つのスキルで安価なエビデンスを持ち、ターゲットスキルの誰も条件付きルータをハイジャックせず、ゼロコストの条件情報値テスト(CIVT)レートのプールでのルーティングのリセットを0から0.94に駆動していることを示します。
ゼロ・エビデンス・ゲートは攻撃を拘束するが、それを排除しない。
われわれはSybil-Resistanceを主張しない-トレードオフを定量化する。
関連論文リスト
- VASO: Formally Verifiable Self-Evolving Skills for Physical AI Agents [57.240036084348354]
本稿では,ロボットスキルコントラクトの検証誘導自己進化のためのフレームワークであるVASOを紹介する。
VASOは論理的に一貫性のないスキル契約を検証し、グローバルおよびローカルな時間的仕様に対してスキルによって誘発される計画を検証する。
Clearpath Jackal と PX4 のクアッドコプタータスクでは、VASO は100点未満の最適化サンプルを使用して97.2% の形式的な仕様準拠に達した。
論文 参考訳(メタデータ) (2026-06-03T20:02:35Z) - When Skills Don't Help: A Negative Result on Procedural Knowledge for Tool-Grounded Agents in Offensive Cybersecurity [1.3591163361204688]
スキルは、推論時にエージェントにロードされた手続き的知識の構造化パッケージである。
様々な領域で平均16.2%の割合でタスクパス率を改善することが広く報告されている。
しかし、同じベンチマークでは、スキルの導入時に負のデルタに苦しむ84のタスクのうち16が広範囲に分散している。
論文 参考訳(メタデータ) (2026-05-19T15:48:35Z) - Agent-ValueBench: A Comprehensive Benchmark for Evaluating Agent Values [17.752804388034583]
Agent-ValueBenchは、エージェント値専用の最初のベンチマークである。
16ドメインにわたる394の実行可能な環境を備え、4,335のバリューコンフリクトタスクを提供する。
エージェント値は、解釈可能な反電流の下で、クロスモデル均質のバリュータイドとして最初に現れる。
論文 参考訳(メタデータ) (2026-05-11T11:09:04Z) - SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。
再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。
SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文 参考訳(メタデータ) (2026-05-09T19:24:11Z) - MEMSAD: Gradient-Coupled Anomaly Detection for Memory Poisoning in Retrieval-Augmented Agents [0.0]
検索強化エージェントに対するメモリ中毒攻撃を,統合評価フレームワークを用いたStackelbergゲームとして定式化する。
ASR-R: 0.25〜1.00$) による攻撃成功度を4倍に向上させる。
私たちの主な貢献は、勾配結合に接地したキャリブレーションに基づく防御であるMEMSADである。
論文 参考訳(メタデータ) (2026-05-05T08:15:41Z) - CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation [0.0]
CADMAS-CTXはコンテキストキャリブレーションのためのフレームワークである。
階層的なコンテキスト能力プロファイルは、静的なスキルレベルの信頼性をコンテキスト条件の後方に置き換える。
GAIAとSWE-benchベンチマークを用いて,本手法の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2026-04-20T08:30:28Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。