論文の概要: The AI Evaluability Gap: The Missing Layer for Managing Risk and Sustaining Value
- arxiv url: http://arxiv.org/abs/2606.21015v1
- Date: Fri, 19 Jun 2026 00:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 09:00:38.113474
- Title: The AI Evaluability Gap: The Missing Layer for Managing Risk and Sustaining Value
- Title(参考訳): AI評価のギャップ - リスク管理と価値維持のための欠落レイヤ
- Authors: Vishal Srivastava, Tanmay Sah,
- Abstract要約: リスクと価値のどちらかに関して、高信頼のガバナンス決定を支持する十分な証拠がない、と私たちは主張します。
既存のガバナンスアプローチは、主に安全性、公正性、信頼性、コンプライアンス、価値といったシステムの特性に焦点を当てています。
高信頼のガバナンス決定を支援するのに十分な証拠を生成し、維持し、更新するシステムの能力として定義される評価可能性を導入する。
- 参考スコア(独自算出の注目度): 1.6328866317851185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Organizations deploying AI face two fundamental governance challenges: managing AI risk and sustaining AI value. Both depend on evidence whose sufficiency cannot be taken for granted. We call the shared underlying challenge the AI Evaluability Gap: the condition in which organizations lack sufficient evidence to support high-confidence governance decisions regarding either risk or value. We argue that this gap reflects a category error in current practice. Existing governance approaches focus primarily on properties of systems, such as safety, fairness, reliability, compliance, and value, while paying comparatively little attention to the evidentiary foundations required to justify decisions about those properties. We further argue that AI governance encompasses both operational decisions regarding whether a system may operate and investment decisions regarding whether it merits continued organizational resources. To address this problem, we introduce Evaluability, defined as the capability of a system to generate, maintain, and renew evidence sufficient to support high-confidence governance decisions over time. We formalize governance decisions as functions of calibrated confidence Conf(D|E) and identify six properties of evaluable evidence: observability, attributability, intervenability, verifiability, calibration, and temporal validity. The framework distinguishes Operational Certification, which relies primarily on structural evidence to justify deployment decisions, from Investment Certification, which relies primarily on causal evidence to justify continued resource allocation. We argue that evidence sufficiency is a missing layer of AI governance and that closing the AI Evaluability Gap is a prerequisite for both managing risk and sustaining value in AI-enabled organizations.
- Abstract(参考訳): AIをデプロイする組織は、AIリスクの管理と、AI価値の維持という、2つの基本的なガバナンス課題に直面している。
どちらも、十分な資格が与えられない証拠に依存している。
私たちは、AI評価のギャップ(Evaluability Gap)という、組織がリスクと価値のどちらに関して、高信頼のガバナンス決定を支持する十分な証拠を欠いている状態)を、その基本的な課題と呼んでいる。
このギャップは、現在の実践におけるカテゴリエラーを反映していると我々は主張する。
既存のガバナンスアプローチは主に、安全性、公正性、信頼性、コンプライアンス、価値といったシステムの特性に重点を置いている一方で、それらの特性に関する決定を正当化するために必要な明らかな基盤には、比較的注意を払っていない。
さらに、AIガバナンスは、システムが運用できるかどうかに関する運用上の決定と、継続する組織リソースにメリットがあるかどうかに関する投資上の決定の両方を包含すると主張する。
この問題に対処するために、我々は、高信頼のガバナンス決定をサポートするのに十分な証拠を生成し、維持し、更新するシステムの能力として定義された評価可能性を導入します。
ガバナンス決定を、キャリブレーションされた信頼(D|E)の関数として形式化し、可観測性、帰属性、介入性、妥当性、校正性、時間的妥当性の6つの特性を識別する。
この枠組みは、主に配置決定を正当化するための構造的証拠に依存する運用証明と、継続する資源割り当てを正当化するための因果的証拠に依存する投資認定とを区別する。
私たちは、エビデンス十分性はAIガバナンスの欠落層であり、AI評価のギャップを閉じることは、AI対応組織におけるリスク管理と価値維持の両方の前提条件である、と論じています。
関連論文リスト
- Trustworthy AI Suffers from Invariance Conflicts and Causality is The Solution [80.98492754957466]
公正性、堅牢性、プライバシ、説明可能性といった、信頼性の高いAI目標を同時に達成することは難しい。
本稿では、パフォーマンスにおけるトレードオフを理解しバランスをとるためには因果性が必要であると論じ、信頼できるAIの複数の目的について論じる。
論文 参考訳(メタデータ) (2026-05-04T14:26:28Z) - High-Risk AI Systems and the Problem of Identity in the European AI Act [0.3384279376065155]
EU人工知能法(英語: EU Artificial Intelligence Act、AIA)は、リスクの高いAIシステムのライフサイクルガバナンス体制を定めている。
このロジックは、アーティファクトアイデンティティーの関数+フレームワークによってどのように解明されるかを示す。
我々は、監査や紛争の文脈において、最小限の決定フローを介して同期ケースを運用する。
論文 参考訳(メタデータ) (2026-04-17T20:24:29Z) - AI Integrity: A New Paradigm for Verifiable AI Governance [3.7184769644515896]
AIシステムは、医療、法律、防衛、教育における高い意思決定をますます形作っている。
既存のガバナンスパラダイム – AI倫理、AI安全性、AIアライメント – は共通の制限を共有している。
本稿では、AIシステムのオーソリティスタックが汚職、汚染、操作、バイアスから保護されている状態として定義された概念であるAIインテグリティを紹介する。
論文 参考訳(メタデータ) (2026-04-13T06:45:30Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Benchmarking is Broken -- Don't Let AI be its Own Judge [22.93026946593552]
私たちは、AIを評価するための現在のlaissez-faireアプローチは持続不可能である、と論じます。
PeerBenchは、コミュニティが管理し、熟達した評価青写真である。
私たちのゴールは、完全性を回復し、真に信頼できるAI進歩の手段を提供するための評価の道を開くことです。
論文 参考訳(メタデータ) (2025-10-08T21:41:37Z) - Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - Beyond Explainability: The Case for AI Validation [0.0]
我々は、中央規制柱としての検証へのシフトを主張する。
AI出力の信頼性、一貫性、堅牢性を保証するバリデーションは、説明可能性に対してより実用的で、スケーラブルで、リスクに敏感な代替手段を提供する。
本稿では,事前・後検証,第三者監査,調和標準,債務インセンティブを中心に,先進的な政策枠組みを提案する。
論文 参考訳(メタデータ) (2025-05-27T06:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。