論文の概要: Evaluation Sovereignty in Metadata-Driven Classification: A Multi-Track Framework for Weakly Supervised Information Systems
- arxiv url: http://arxiv.org/abs/2606.13436v1
- Date: Thu, 11 Jun 2026 14:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.863922
- Title: Evaluation Sovereignty in Metadata-Driven Classification: A Multi-Track Framework for Weakly Supervised Information Systems
- Title(参考訳): メタデータ駆動分類における評価の相違:弱監視情報システムのためのマルチトラックフレームワーク
- Authors: Raymond Vasquez,
- Abstract要約: 本稿では,分類性能の向上をめざしてはいない。
代わりに、ラベルオーソリティの異なる体制下でのパフォーマンス測定の有効性を検討する。
評価主権は,評価指標がラベル権限や監督体制から独立している度合いとして定義される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation in machine learning is typically treated as a neutral measurement process. However, in operational information systems, evaluation outcomes are often conditioned by the processes used to generate labels. This paper does not seek to improve classification performance. Instead, it examines the validity of performance measurement under differing label-authority regimes. This issue is particularly relevant in large-scale metadata-driven systems, where labels are often incomplete, inconsistent, or weakly supervised. We introduce evaluation sovereignty, defined as the degree to which performance metrics are independent of label authority and supervision regime, and propose a multi-track evaluation framework that systematically varies training and evaluation label sources. Using hierarchical multi-label classification on large-scale scientific metadata, we demonstrate that models exhibiting strong performance under operational ("silver") evaluation degrade substantially under independent ("gold") evaluation, particularly for fine-grained classification. For example, Micro-F1 decreases from approximately 0.54 to 0.03. Notably, ranking-based metrics remain above baseline, revealing a divergence between latent model signal and classification validity. These findings suggest that commonly reported performance metrics may reflect alignment with labeling processes rather than true predictive capability. We therefore reconceptualize evaluation validity as a system-level property shaped by label governance and provide a practical methodology for auditing intelligent systems operating under weak supervision.
- Abstract(参考訳): 機械学習の評価は、通常中立的な測定プロセスとして扱われる。
しかしながら、運用情報システムでは、評価結果はしばしばラベルを生成するプロセスによって条件付けられている。
本稿では,分類性能の向上をめざしてはいない。
代わりに、ラベルオーソリティの異なる体制下でのパフォーマンス測定の有効性を検討する。
この問題は、ラベルが不完全、一貫性のない、あるいは弱く管理されているような、大規模なメタデータ駆動システムに特に関係している。
本稿では,ラベルの権威や監督体制から独立して評価指標が定義される度合いとして定義された評価主権を導入し,学習や評価のソースを体系的に変化させるマルチトラック評価フレームワークを提案する。
大規模科学的メタデータの階層的多ラベル分類を用いて,操作的(銀)評価下での強い性能を示すモデルは,特にきめ細かい分類において,独立性(金)評価下で著しく劣化することを示した。
例えば、Micro-F1 は約 0.54 から 0.03 に減少する。
特に、ランキングベースのメトリクスはベースライン上にとどまり、潜在モデル信号と分類の妥当性の相違が明らかになった。
これらの結果は、一般的に報告されるパフォーマンス指標は、真の予測能力ではなく、ラベル付けプロセスとの整合性を反映している可能性があることを示唆している。
そこで我々は,評価妥当性をラベルガバナンスによって形成されたシステムレベルの特性として再認識し,弱い監督下で動作しているインテリジェントシステムの監査を行うための実践的方法論を提供する。
関連論文リスト
- Interactive Evaluation Requires a Design Science [90.62695599188204]
大規模言語モデル(LLM)は、ツールや環境、ユーザ、その他のエージェントを通じて、時間とともに機能するシステムとして、ますます多くデプロイされている。
フィールドはインタラクティブなベンチマークを構築し始めたが、その結果のランドスケープは断片化されている。
本論では,対話的評価は原則的評価パラダイムとして扱うべきであると論じる。
論文 参考訳(メタデータ) (2026-05-18T04:03:18Z) - Outperformance Score: A Universal Standardization Method for Confusion-Matrix-Based Classification Performance Metrics [1.5186937600119894]
混乱行列に基づく分類性能指標の共通標準化手法であるアウトパフォーマンススコア関数を導入する。
アウトパフォーマンススコアは、可能な性能の基準分布における観察された分類性能のパーセンタイルランクを表す。
論文 参考訳(メタデータ) (2025-05-11T16:07:14Z) - SEOE: A Scalable and Reliable Semantic Evaluation Framework for Open Domain Event Detection [70.23196257213829]
オープンドメインイベント検出のためのスケーラブルで信頼性の高いセマンティックレベルの評価フレームワークを提案する。
提案フレームワークはまず,現在7つの主要ドメインをカバーする564のイベントタイプを含む,スケーラブルな評価ベンチマークを構築した。
次に,大言語モデル(LLM)を自動評価エージェントとして活用し,意味的類似ラベルのきめ細かい定義を取り入れた意味的F1スコアを計算する。
論文 参考訳(メタデータ) (2025-03-05T09:37:05Z) - Overcoming Common Flaws in the Evaluation of Selective Classification Systems [3.197540295466042]
タスクアライメント、解釈可能性、柔軟性に関する選択的な分類において、マルチスレッドメトリクスに対する5つの要件を定義します。
本稿では,全要件を満たす総合リスクカバレッジ曲線(mathrmAUGRC$)に基づくエリアを提案する。
論文 参考訳(メタデータ) (2024-07-01T07:32:58Z) - Rethinking Pseudo Labels for Semi-Supervised Object Detection [84.697097472401]
物体検出に適した確実な擬似ラベルを導入する。
我々は,クラス不均衡問題を緩和するために,各カテゴリの擬似ラベルと再重み付き損失関数を生成するために使用する閾値を動的に調整する。
提案手法では,COCOのラベル付きデータのみを用いて,教師付きベースラインを最大10%改善する。
論文 参考訳(メタデータ) (2021-06-01T01:32:03Z) - A Skew-Sensitive Evaluation Framework for Imbalanced Data Classification [11.125446871030734]
不均衡なデータセットのクラス分布スキューは、多数派クラスに対する予測バイアスのあるモデルにつながる可能性がある。
本稿では,不均衡なデータ分類のための簡易かつ汎用的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-12T19:47:09Z) - Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine
Translation Evaluation Metrics [64.88815792555451]
評価法は, 評価に用いる翻訳に非常に敏感であることを示す。
本研究では,人的判断に対する自動評価基準の下で,性能改善をしきい値にする方法を開発した。
論文 参考訳(メタデータ) (2020-06-11T09:12:53Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z) - Active Bayesian Assessment for Black-Box Classifiers [20.668691047355072]
本稿では,信頼性とラベル効率の両面でのデシラタを満たすため,分類器の性能を評価するためのベイズ的手法を提案する。
まず、精度、誤分類コスト、校正誤差などの一般的な評価指標の不確かさを定量化する推論手法を開発する。
次に、推論不確実性を用いたベイズ評価のための一般的な枠組みを提案し、ラベリングのための効率的なインスタンス選択を導出する。
論文 参考訳(メタデータ) (2020-02-16T08:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。