論文の概要: When Metrics Disagree: A Meta-Analysis of Knowledge-Graph-Completion Model Benchmarking
- arxiv url: http://arxiv.org/abs/2606.10287v1
- Date: Tue, 09 Jun 2026 01:20:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-10 15:40:58.245356
- Title: When Metrics Disagree: A Meta-Analysis of Knowledge-Graph-Completion Model Benchmarking
- Title(参考訳): Metrics Disagree:知識-グラフ-補完モデルベンチマークのメタ分析
- Authors: Haji Gul, Ajaz Ahmad Bhat,
- Abstract要約: 本稿では, 整合性, クロスデータセット安定性, 距離独立性, 雑音下での頑健性, 一般化性という, 5つのテストにまたがる7つのアグリゲータのメタ分析について述べる。
Across tail $(h,r,?)$ and relation $(h,?,t)$ prediction, Z-score is the most balanced aggregator, which rank of DualE highest for tail prediction, FMS highest for relation prediction。
このフレームワークは、評価の不整合を解消し、KGCにおけるアグリゲータの選択とモデルベンチマークのためのエビデンスベースのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating Knowledge Graph Completion (KGC) models remains challenging because standard assessment relies on isolated rank-based metrics such as MRR, Hits$@$k, and Mean Rank, which often produce conflicting model orderings across datasets. A model that leads on MRR may trail on Hits@1, and strong performance on one dataset may not generalize to another. This fragmentation hinders comparison, enables selective reporting, and obscures real progress. We reframe KGC evaluation as a Multi-Criteria Decision-Making (MCDM) problem and present a meta-analysis of seven aggregators across five tests: consistency, cross-dataset stability, metric independence, robustness under noise, and generalizability. Each test is averaged over leave-one-model-out (LOMO) and leave-one-group-out (LOGO) removals so that reliability reflects aggregator behavior across diverse model subsets. Across tail $(h,r,?)$ and relation $(h,?,t)$ prediction, Pareto-optimal analysis identifies Z-score as the most balanced aggregator, which ranks DualE highest for tail prediction and FMS (Flow-Modulated Scoring) highest for relation prediction. A test-sensitivity analysis using the same removals shows that consistency and stability are largely removal-invariant, while generalizability and independence are the most sensitive. The framework resolves evaluation inconsistencies and offers evidence-based guidance for aggregator selection and model benchmarking in KGC.
- Abstract(参考訳): 標準的な評価は、MRR、Hits$@$k、Mean Rankといった独立したランクベースのメトリクスに依存しているため、知識グラフ補完(KGC)モデルの評価は依然として難しい。
MRRに導かれるモデルは Hits@1 に追随し、あるデータセットの強いパフォーマンスは別のデータセットに一般化しないかもしれない。
この断片化は比較を妨げ、選択的な報告を可能にし、実際の進歩を曖昧にする。
我々は,KGC評価をMCDM(Multi-Criteria Decision-Making)問題として再編成し,整合性,クロスデータセット安定性,距離独立性,雑音下での堅牢性,一般化性という,5つのテストにまたがる7つのアグリゲータのメタ分析を行った。
各テストはLOMO(Leave-one-model-out)とLOGO(Leave-one-group-out)で平均化され、信頼性はさまざまなモデルサブセット間でアグリゲータの振る舞いを反映する。
Across tail $(h,r,?)$ and relation $(h,?,t)$ prediction, Pareto-optimal analysis は、Zスコアを最もバランスの取れたアグリゲータとして識別する。
同じ除去を用いたテスト感度解析により、一貫性と安定性は大部分が除去不変であり、一般化可能性と独立性が最も敏感であることが示された。
このフレームワークは、評価の不整合を解消し、KGCにおけるアグリゲータの選択とモデルベンチマークのためのエビデンスベースのガイダンスを提供する。
関連論文リスト
- Maximum Matching Accuracy: An Instance Segmentation Evaluation Metric Utilizing Globally Optimal Matching [39.3098730337656]
本研究では,予測された真理オブジェクトと地上の真理オブジェクトの1対1の大域的最適マッチングを求める閾値フリー連続計量を提案する。
MMAは既存の代替品よりも安定で、感度が高く、解釈しやすいスコアを生成する。
論文 参考訳(メタデータ) (2026-06-08T19:36:28Z) - Provable Joint Decontamination for Benchmarking Multiple Large Language Models [19.929035827959822]
ベンチマーク除染を共同選択問題として定式化し,JECS(Joint Envelope Conformal Selection)を提案する。
JECS はモデルごとの同値 p を計算し、それを最大値で集約し、最大 p 個の null 分布の保守的エンベロープを再構成する。
様々なモデルとベンチマーク実験により、JECSは目標のGCR制御を一貫して維持しつつ、最大pベースラインよりも高い出力を達成することが示された。
論文 参考訳(メタデータ) (2026-05-20T09:16:39Z) - Automatic Unsupervised Ensemble Outlier Model Selection--Extended Version [16.177590208339176]
ラベル付きデータを必要としないため、教師なしの外れ値検出は魅力的である。
本稿では,外乱検出モデルのアンサンブルを選択するための教師なしフレームワークであるMetaEnsを提案する。
39の実世界のデータセットの実験によると、MetaEnsは最先端の教師なしセレクタとアンサンブルベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-05-15T19:15:58Z) - IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - STAR : Bridging Statistical and Agentic Reasoning for Large Model Performance Prediction [78.0692157478247]
本稿では,知識駆動型エージェント推論を用いて,データ駆動型静的予測を橋渡しするフレームワークSTARを提案する。
STARはスコアベースとランクベースの両方の基準線を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-12T16:30:07Z) - Confidence and Dispersity as Signals: Unsupervised Model Evaluation and Ranking [46.95596181965493]
本稿では,教師なしモデル評価とランキングのための統一的で実用的なフレームワークを提案する。
ハイブリッドメトリクスは、データセット中心およびモデル中心の評価設定の両方において、単一アスペクトメトリクスを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-03T12:48:11Z) - KG-EDAS: A Meta-Metric Framework for Evaluating Knowledge Graph Completion Models [0.0]
知識グラフ(KG)を評価する上での大きな課題は、複数のデータセットとメトリクスのパフォーマンスを比較することだ。
我々は,平均解からの距離に基づくKG評価を提案し,マルチメトリック・マルチデータセットのパフォーマンスを統一的なランキングに組み込む。
EDASは、より情報のあるモデル選択をサポートし、データセット間の評価において公平性を促進するグローバルな視点を提供する。
論文 参考訳(メタデータ) (2025-08-21T08:37:35Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - CARMS: Categorical-Antithetic-REINFORCE Multi-Sample Gradient Estimator [60.799183326613395]
本稿では, 相互に負に相関した複数のサンプルに基づく分類的確率変数の非バイアス推定器を提案する。
CARMSは、ReINFORCEとコプラベースのサンプリングを組み合わせることで、重複サンプルを回避し、その分散を低減し、重要サンプリングを使用して推定器を偏りなく維持する。
我々は、生成的モデリングタスクと構造化された出力予測タスクに基づいて、いくつかのベンチマークデータセット上でCARMSを評価し、強力な自己制御ベースラインを含む競合する手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-26T20:14:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。