論文の概要: Gaming-Resistant Insurance Contracts for Autonomous AI Agents: Strategy-Proof Toll Mechanism Design
- arxiv url: http://arxiv.org/abs/2606.16326v2
- Date: Thu, 18 Jun 2026 03:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 13:55:51.603084
- Title: Gaming-Resistant Insurance Contracts for Autonomous AI Agents: Strategy-Proof Toll Mechanism Design
- Title(参考訳): 自律型AIエージェントのためのゲーム抵抗型保険契約:戦略-料金体系設計
- Authors: Hao-Hsuan Chen,
- Abstract要約: Paper Aは、契約によって固定されたデフォルトに対して各副作用を価格設定し、予備予算に対して実行をゲートする、時間一貫性のあるアクチュアリランタイムを定義する。
我々は、自律型AIエージェント保険契約のための5つの攻撃空間を特徴付け、アクチュアリルランタイムがゲームに耐性があることを証明している。
次に,これらの節をPaper Aのランタイム保証と組み合わせて,5つの攻撃空間に対する共同インセンティブ互換性を得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paper A defines a time-consistent actuarial runtime that prices each side-effect-bearing action against a contractually fixed safe default and gates execution against a reserve budget. It treats the operator as passive. This paper makes the operator strategic. We characterise a five-attack space for autonomous AI-agent insurance contracts and prove when the actuarial runtime is gaming-resistant. Two attack surfaces -- post-toll safe-default selection and within-boundary action splitting -- are closed by Paper A's minimal-authority and no-splitting clauses. The remaining three require new contract clauses. First, common-control aggregation prevents cross-boundary re-routing from reducing toll below the boundary potential applied to total exposure. Second, interface failures such as invalid JSON are contract-relevant events, not safety wins: treating them as zero-toll safe defaults can reward unreliable models, while escalation fees reverse the incentive. We validate this interface-compliance theorem on committed cross-model traces from the companion empirical paper. Third, a model-identity menu with a componentwise-minimum penalty schedule makes truthful reporting of the deployed model weakly dominant. We then compose these clauses with Paper A's runtime guarantees to obtain joint incentive compatibility over the five-attack space. Finally, a two-parameter premium family discharges operator individual rationality and weak budget balance at the truthful equilibrium. The result is an incentive-compatibility layer for actuarial control of autonomous-agent side effects.
- Abstract(参考訳): 紙Aは、契約により固定されたデフォルトに対して各サイドエフェクト付きアクションを価格設定し、予備予算に対して実行をゲートする、時間一貫性のあるアクチュエータランタイムを定義する。
オペレータを受動的として扱う。
この論文はオペレーターを戦略的にする。
我々は、自律型AIエージェント保険契約のための5つの攻撃空間を特徴付け、アクチュアリルランタイムがゲームに耐性があることを証明している。
2つの攻撃面 -- 安全なデフォルト選択と境界内アクション分割 -- は、Paper Aの最小権限と非分割条項によって閉じられている。
残りの3つは、新しい契約条項を必要とする。
第一に、共通制御アグリゲーションは、全露光に適用される境界電位以下の対価を減少させる。
第2に、無効なJSONなどのインターフェース障害は、コントラクト関連イベントであって、安全ではない – ゼロトールセーフなデフォルトとして扱うことで、信頼性の低いモデルに報いると同時に、エスカレーション手数料によってインセンティブが反転する。
本定理は, 共用実験紙から得られた有意なクロスモデルトレースに対して検証する。
第3に、コンポーネント単位で最小限のペナルティスケジュールを持つモデルアイデンティティメニューは、デプロイされたモデルの真正な報告を弱く支配する。
次に,これらの節をPaper Aのランタイム保証と組み合わせて,5つの攻撃空間に対する共同インセンティブ互換性を得る。
最後に、2パラメータのプレミアムファミリーは、真理平衡において演算子個人の合理性と弱い予算バランスを放出する。
その結果、自律エージェント側効果のアクチュエータ制御のためのインセンティブ適合層が得られた。
関連論文リスト
- Foundations of a Time-Consistent Counterfactual Actuarial Runtime for Autonomous AI Agents [0.0]
本稿では,自律型AIエージェントのための実行時アクチュエーター層を提案する。
副作用を含むすべてのアクションは、契約的に固定されたセーフデフォルトに対して、時間的に一貫性があり、反ファクト的なリスク料金を課します。
論文では、プリミティブな契約、料金の同一性、バウンダリ内の非アービタージュ結果、そしてこれら後の層が依存する予算保証について述べる。
論文 参考訳(メタデータ) (2026-05-26T03:47:58Z) - Insuring Every Action: An Authority Frontier Framework for Runtime Actuarial Control of Autonomous AI Agents [0.0]
本稿では,アクタリカル・アクション・インタフェース (AAI) を提案する。
次に、各予備資本のレベルにおいて、ランタイムがどれだけ自律的にリリースするかを測定する、評価プリミティブであるオーソリティフロンティアを開発します。
このコントリビューションは、自律エージェントサイドエフェクトのランタイムアクチュエータ制御のためのベンチマーク対応評価フレームワークである。
論文 参考訳(メタデータ) (2026-05-25T09:31:48Z) - Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents [0.0]
自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
論文 参考訳(メタデータ) (2026-04-27T16:46:15Z) - Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment [59.536125286960186]
セルフリフレクションと相互監査を可能にするために、専門的な役割を割り当てるマルチエージェントフレームワークがますます採用されている。
アクター・オブザーバ非対称性(Actor-Observer Asymmetric)と呼ばれる認知バイアスを同時に誘発する。
ReTASは、対立する視点を客観的なコンセンサスに合成するためにエージェントを誘導する。
論文 参考訳(メタデータ) (2026-04-21T15:05:58Z) - CORA: Conformal Risk-Controlled Agents for Safeguarded Mobile GUI Automation [68.53387633351484]
有害な行為に対する統計的保証を提供するポスト・ポリティクス・プレアクション保護フレームワークであるCORA(Conformal Risk-control GUI Agent)を提案する。
CORAは、安全を選択的行動実行として再定義する:我々は、提案されたステップごとに行動条件リスクを推定するためにガーディアンモデルを訓練する。
このパラダイムを厳格に評価するために、ステップレベルのハーモラベルを持つモバイル安全違反の新しいベンチマークであるPhone-Harmを紹介する。
論文 参考訳(メタデータ) (2026-04-10T09:41:21Z) - Quantifying Self-Preservation Bias in Large Language Models [9.590157416396194]
本稿では,emphTwo-role Benchmark for Self-Preservationを紹介する。
役割アイデンティティが客観的ユーティリティを過度に上回る頻度を測定する。
我々は,低改善体制下では,モデルが解釈スラックを利用してポストホック合理化を行うのを観察する。
論文 参考訳(メタデータ) (2026-04-02T15:38:31Z) - CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution [49.689452243966315]
ツールコール機能を備えたAIエージェントは、IPI(Indirect Prompt Injection)攻撃の影響を受けやすい。
本稿では,選択防衛フレームワークCausalArmorを提案する。
AgentDojoとDoomArenaの実験は、CausalArmorが攻撃的な防御のセキュリティと一致することを示した。
論文 参考訳(メタデータ) (2026-02-08T11:34:08Z) - To Throw a Stone with Six Birds: On Agents and Agenthood [0.0]
Six Birds Theory (SBT)は、マクロな物体を原始体ではなく誘導的閉包として扱う。
SBT内では,タイプ正当性評価を行う。
我々はこの契約を4つのチェック可能なコンポーネントを用いて有限制御システムで運用する。
論文 参考訳(メタデータ) (2026-02-03T10:46:23Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。