論文の概要: When Agent Automation Becomes Profitable: Quantifying and Insuring Autonomous AI Risk through Trace-Economic Underwriting
- arxiv url: http://arxiv.org/abs/2606.16465v1
- Date: Mon, 15 Jun 2026 09:33:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:34.340433
- Title: When Agent Automation Becomes Profitable: Quantifying and Insuring Autonomous AI Risk through Trace-Economic Underwriting
- Title(参考訳): エージェントの自動化が利益になるとき - トレーサ・エコノミクスによる自律的なAIリスクの定量化と保証
- Authors: Binyan Xu, Xilin Dai, Fan Yang, Kehuan Zhang,
- Abstract要約: 顧客・タスク・トレースのエピソードレベルでリスクを定量化し、保険を通じて転送する。
トレーサ・エコノミック・アンダーライト・マップは、顧客の露出と要求可能な損失をトレースし、価格、制御、リスク転送にこの表現を使用する。
我々のトレース・ツー・ロステストベッドでは、トレース・エコノミクスの価格が17.7Kから569ドルに引き下げられ、回帰的なクロス・サブシディが取り除かれる。
- 参考スコア(独自算出の注目度): 5.466519893996914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents can now take irreversible actions in operational systems, but agent-caused losses are still not clearly assigned, priced, or transferred. Providers often disclaim consequential damages, users are left with uncompensated losses, and default human review limits the efficiency gains of automation. We ask when autonomous AI deployment can become economically acceptable despite failure risk. Our answer is to quantify risk at the customer-task-trace episode level and transfer it through insurance. Automation is acceptable when its expected benefit exceeds the premium, control cost, and remaining risk. This requires a defined role with bounded permissions and comparable traces. We introduce trace-economic underwriting, which maps tool-use traces to customer exposure and claimable loss, then uses this representation for pricing, control, and risk transfer. It uses deterministic economic labels rather than an LLM judge. In our trace-to-loss testbed, trace-economic pricing reduces pricing MAE from $17.7K to $569 and removes regressive cross-subsidy. A 300-trace expert audit accepts 295 labels unchanged. On 1,000 real SWE-smith traces, trace-conditioned controls reduce CVaR95 by 72%. Theorem~1 gives a finite-sample scope condition. We release code, labels, and audit sheets.
- Abstract(参考訳): AIエージェントは、運用システムにおいて不可逆的なアクションを取ることができるが、エージェントによる損失はまだ明確に割り当てられていない。
プロバイダはしばしば、連続的なダメージを否定し、ユーザーは補償されていない損失を被り、デフォルトのヒューマンレビューは自動化の効率性の向上を制限する。
私たちは、失敗のリスクにもかかわらず、自律的なAIデプロイメントが経済的に受け入れられるかどうか尋ねる。
私たちの答えは、顧客・タスク・トレースのエピソードレベルでリスクを定量化し、保険を通じて転送することです。
自動化は、期待される利益がプレミアム、コントロールコスト、そして残りのリスクを超えた場合に受け入れられる。
これは、制限付きパーミッションと同等のトレースを持つ定義されたロールを必要とする。
ツール使用のトレースを顧客の露出と要求可能な損失にマップし、この表現を価格、制御、リスク転送に使用します。
LLM審査員ではなく、決定論的経済ラベルを使用する。
我々のトレース・ツー・ロステストベッドでは、トレース・エコノミクスの価格が17.7Kから569ドルに引き下げられ、回帰的なクロス・サブシディが取り除かれる。
300トレースの専門家監査は、295のラベルを変更せずに受け入れます。
1,000個の本物のSWEスミストレースでは、トレース条件の制御によりCVaR95は72%減少する。
定理~1は有限サンプルスコープ条件を与える。
コード、ラベル、監査シートをリリースします。
関連論文リスト
- When Outcome Looks Right But Discipline Fails: Trace-Based Evaluation Under Hidden Competitor State [0.39287497907611874]
アウトカムのみの評価は経済的に安全でないエージェントを認定することができる。
隠れた競合状態のホテル料金では、学習者はルールベースの収益管理政策の利率規律を保ちつつ、利用可能な部屋当たりのもっともらしい収入を達成することができる。
トレースに基づく評価パラダイムである規律安定性を導入する。
論文 参考訳(メタデータ) (2026-05-18T15:58:34Z) - ValueBlindBench: Agreement-Gated Stress Testing of LLM-Judged Investment Rationales Before Returns Are Observable [1.8689252029357564]
本稿では,事前登録された合意付きストレステストプロトコルであるValueBlindBenchを紹介する。
ValueBlindBench は LLM-judged Investment-rationale のクレームがパブリッシュ可能、資格あり、無効かを決定する。
論文 参考訳(メタデータ) (2026-04-28T05:04:20Z) - Near-Miss: Latent Policy Failure Detection in Agentic Workflows [9.719140082591956]
エージェントの会話トレースにおける遅延ポリシー障害を検出するための新しい指標を提案する。
その結果,ツールコールの変異を伴う軌道の8~17%に潜伏障害がみられた。
論文 参考訳(メタデータ) (2026-03-31T12:26:35Z) - Sovereign-OS: A Charter-Governed Operating System for Autonomous AI Agents with Verifiable Fiscal Discipline [7.232369984903087]
Sovereign-OSはガバナンスファーストのオペレーティングシステムで、すべてのエージェントアクションを憲法上の管理下に置く。
CEO(ストラテジスト)は、目標を依存性を認識したタスクDAGに分解する。
CFOは、オークションベースの入札エンジンを介して、予算上限、日々の燃焼制限、収益性フロアに対して各支出をゲートする。
労働者は、動的TrustScoreが管理する有給オートノミーの下で活動する。
論文 参考訳(メタデータ) (2026-03-14T16:25:31Z) - Conformal Thinking: Risk Control for Reasoning on a Compute Budget [60.65072883773352]
大規模言語モデル(LLM)の推論により、トークンの予算が増加するにつれて、データセットレベルの精度が向上する。
我々は、予算設定問題をリスクコントロールとして再設定し、計算を最小化しながらエラー率を制限する。
我々のフレームワークは、モデルが自信のあるときに推論を停止する上位しきい値と、未解決のインスタンスを事前に停止させる新しい下位しきい値を導入する。
論文 参考訳(メタデータ) (2026-02-03T18:17:22Z) - Impatient Users Confuse AI Agents: High-fidelity Simulations of Human Traits for Testing Agents [58.00130492861884]
TraitBasisは、AIエージェントを体系的にストレステストするための軽量でモデルに依存しない方法である。
TraitBasisは、ステアブルなユーザ特性に対応するアクティベーション空間で方向を学習する。
We observed on average a 2%-30% performance degradation on $tau$-Trait across frontier model。
論文 参考訳(メタデータ) (2025-10-06T05:03:57Z) - When Hallucination Costs Millions: Benchmarking AI Agents in High-Stakes Adversarial Financial Markets [0.3069921776214295]
AI評価において重要な盲点を明らかにするベンチマークであるCAIAを提示する。
我々は178の時間短縮タスクに対して17のモデルを評価し,真理と操作の区別をエージェントに要求した。
ツールがなければ、フロンティアモデルでさえ、ジュニアアナリストが日常的に扱うタスクにおいて28%の精度しか達成できません。
論文 参考訳(メタデータ) (2025-09-30T22:39:06Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。