論文の概要: Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations
- arxiv url: http://arxiv.org/abs/2606.17005v1
- Date: Mon, 15 Jun 2026 17:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 18:36:05.113873
- Title: Bayesian Inference and Decision Audits for Public Archives of Frontier AI Evaluations
- Title(参考訳): フロンティアAI評価公開アーカイブにおけるベイズ推定と意思決定監査
- Authors: Yanan Long,
- Abstract要約: 公的なAI評価は、しばしばターミナルのリーダーボードとして読まれる。
根底にある証拠は、レポートルール、ベンチマーク修正、欠如によって形成された選択的な時系列である。
アーカイブ・アンド・アジュディテーションプロトコルは、公開評価履歴を再構築し、検証されたタイミング境界を分離し、支持できないフロンティアクレームを偽装する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Public AI evaluations are often read as terminal leaderboards, yet the underlying evidence is a selective time series shaped by reporting rules, benchmark revisions, and missingness. Repeated public archives for LiveBench and Open LLM Leaderboard v2 serve as the primary longitudinal record; LMArena provides a preference stress test; and GAIA and tau-bench contribute limited agentic pilots. Together, these archives instantiate a Bayesian inference problem: under a fixed reporting convention, one constructed terminal-only example over $1{,}000$ systems is compatible with two pre-terminal histories, yielding times of $23.03$ or $75.13$ to reach within $0.05$ of the ceiling under the same terminal-tail model. In synthetic posterior comparisons, action-facing diagnostics differ across observation regimes. The candidate selection-aware frontier model fails synthetic recovery, objective-archive prediction, preference transfer, and uncertainty calibration; correspondingly, fixed audit gates reject its stronger claims. An archive-and-adjudication protocol reconstructs public evaluation histories, isolates a verified timing boundary, and falsifies unsupported frontier claims.
- Abstract(参考訳): パブリックAI評価は、しばしば端末のリーダーボードとして読まれるが、基礎となる証拠は、レポートルール、ベンチマーク修正、不足によって形成された選択的な時系列である。
LiveBench と Open LLM Leaderboard v2 の繰り返し公開アーカイブが主要な縦記録として機能し、LMArena は優先ストレステストを提供し、GAIA と tau-bench は限定的なエージェントパイロットに貢献している。
固定されたレポーティング・コンベンションの下で、1${,}000ドルのシステムで構築された端末のみの例は、2つの端末前の履歴と互換性があり、同じターミナルテールモデルの下で天井の0.05ドル以内に到達するために23.03ドルまたは7,5.13ドルとなる。
総合的な後部比較では、行動対応診断は観察体制によって異なる。
候補選択対応フロンティアモデルは、合成回復、客観的予測、優先移動、不確実性の校正に失敗し、固定監査ゲートはその強い主張を拒絶する。
アーカイブ・アンド・アジュディテーションプロトコルは、公開評価履歴を再構築し、検証されたタイミング境界を分離し、支持できないフロンティアクレームを偽装する。
関連論文リスト
- Benchmarking Recursive-Collapse Warning Claims Under Matched False-Positive Control [0.0]
再帰的なシステムは、過度な失敗が見える前に、崩壊のような状態に入ることができる。
障害が指向性テレメトリパターンに従うかどうかをテストするためのクレームバウンド型ベンチマークフレームワークであるLoopzeroを紹介した。
凍結した2つの公開アーティファクトベンチマークのブリッジを評価する。
論文 参考訳(メタデータ) (2026-05-29T20:12:42Z) - A Benchmark for Strategic Auditee Gaming Under Continuous Compliance Monitoring [1.253312107729806]
継続的デプロイ後のコンプライアンス監査は、戦略的なゲームのクラスを作成します。
我々は,時間的方針にコミットする監査者と適応監査人との間に,$T$ラウンドのStackelbergゲームとして継続的監査を形式化する。
論文 参考訳(メタデータ) (2026-05-07T14:28:34Z) - Affordance Agent Harness: Verification-Gated Skill Orchestration [45.231685718099264]
Affordance groundingは、オープンワールドのシーンでエージェントがどこでどのように対話すべきかを特定する必要がある。
本稿では,エビデンスストアとコストコントロールを備えたクローズドループランタイムであるAffordance Agent Harnessを提案する。
論文 参考訳(メタデータ) (2026-05-01T13:45:16Z) - IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory [73.22944697933603]
既存のパイプラインは不透明でエンドツーエンドの出力を生成し、検査の中間状態は公開しない。
IMPACT-Cycleは,マルチモーダル反復クレームレベルのメンテナンスとして,長時間ビデオ理解を再構築するマルチエージェントシステムである。
論文 参考訳(メタデータ) (2026-04-22T03:03:33Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Preserving Historical Truth: Detecting Historical Revisionism in Large Language Models [66.75310318710073]
textttHistoricalMisinfoは45ドル(約4,400円)の国から50ドル(約5,800円)のコンテストイベントを収集したデータセットです。
実世界の利用を近似するために、一般的な通信設定を反映したプロンプトシナリオを11ドルで、各イベントをインスタンス化する。
論文 参考訳(メタデータ) (2026-02-19T15:05:10Z) - HLE-Verified: A Systematic Verification and Structured Revision of Humanity's Last Exam [63.84155758655084]
HumanityのLast Exam (HLE)は、フロンティアの大規模言語モデルを評価するために広く使われているベンチマークである。
HLE-Verifiedは,透過的検証プロトコルときめ細かい誤り分類法を備えたHLEの検証および改訂版である。
我々は,HLEとHLE-Verifiedの7つの最先端言語モデルを評価し,平均7~10ポイントの絶対精度を観測した。
論文 参考訳(メタデータ) (2026-02-15T02:50:15Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z) - Audit the Whisper: Detecting Steganographic Collusion in Multi-Agent LLMs [0.0]
Audit the Whisperは、理論、ベンチマーク設計、検出、検証にまたがるカンファレンスグレードの研究成果物である。
i) パラフレーズ, レート制限, 役割置換などの介入が, ペアリングしたKullback-Leibler診断によって定量的なペナルティの操作を課すことを示すチャネル容量分析を行った。
我々は、匿名化された再生スクリプト、匿名化されたマニフェスト、ドキュメントをリリースし、外部監査官がすべての図を再現し、二重盲検要件を満たし、最小限の努力でフレームワークを拡張します。
論文 参考訳(メタデータ) (2025-10-05T17:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。