論文の概要: PROBE-Web: An Interactive System for Probing Evaluation Landscapes of Knowledge Graph Completion Models
- arxiv url: http://arxiv.org/abs/2606.08926v1
- Date: Mon, 08 Jun 2026 02:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.568375
- Title: PROBE-Web: An Interactive System for Probing Evaluation Landscapes of Knowledge Graph Completion Models
- Title(参考訳): PROBE-Web:知識グラフ補完モデルの景観評価のためのインタラクティブシステム
- Authors: Sooho Moon, Yunyong Ko,
- Abstract要約: PROBE-Webは、KGCモデルの多様な評価環境を探索するインタラクティブシステムである。
ユーザーは、(P1)予測的シャープネスと(P2)人気バイアスロバストネスの2つの重要な視点を調整することで、柔軟にKGCモデルを評価することができる。
- 参考スコア(独自算出の注目度): 0.5271072635937927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge graph completion (KGC) models are commonly evaluated using rank-based metrics such as MRR and Hits@K, despite different users often requiring different evaluation perspectives. In this demo, we present PROBE-Web, an interactive system for probing diverse evaluation landscapes for KGC models. PROBE-Web enables users to flexibly evaluate KGC models by adjusting two critical perspectives: (P1) predictive sharpness and (P2) popularity-bias robustness. Through a user-friendly GUI, users easily evaluate multiple KGC models and analyze their strengths and weaknesses. PROBE-Web provides four key functionalities: (1) conventional evaluation toolkit, (2) flexible perspective-aware evaluation, (3) explainable case studies, and (4) evaluation landscape exploration. We believe that PROBE-Web can help users better understand KGC models aligning with their objectives.
- Abstract(参考訳): 知識グラフ補完(KGC)モデルは、MRRやHits@Kのようなランクベースのメトリクスを使用して一般的に評価される。
本稿では,KGCモデルに対する多様な評価環境を探索する対話型システム PROBE-Web を提案する。
PROBE-Webは、(P1)予測のシャープネスと(P2)人気バイアスのロバストネスという2つの重要な視点を調整して、KGCモデルを柔軟に評価することができる。
ユーザはユーザフレンドリなGUIを通じて、複数のKGCモデルを簡単に評価し、その強みと弱点を分析する。
PROBE-Webは,(1)従来の評価ツールキット,(2)フレキシブルな視点認識評価,(3)説明可能な事例研究,(4)景観探索の4つの重要な機能を提供している。
PROBE-Webは,KGCモデルと目標との整合性をよりよく理解する上で有効であると考えています。
関連論文リスト
- Generalized Rank-based Evaluation for Knowledge Graph Completion: Perspectives, Framework, and Analyses [2.7836206220202757]
既存の評価指標では見過ごせない2つの重要な視点をKGC評価に導入する。
本稿では,予測シャープネスのレベルに基づいて,各予測のスコアを推定する一般化評価フレームワーク PROBE を提案する。
PROBEはそのような一貫性をよりよく維持し、既存のメトリクスよりも信頼性の高い本質的なモデル性能を推定できることを示す。
論文 参考訳(メタデータ) (2026-06-08T02:00:38Z) - How Sharp and Bias-Robust is a Model? Dual Evaluation Perspectives on Knowledge Graph Completion [0.5271072635937927]
知識グラフ補完(KGC)は、観測されたKGから行方不明の事実を予測することを目的としている。
既存のメトリクスは、KGC評価の2つの重要な視点を見落としている。
新たな評価枠組み(PROBE)を提案する。
実世界のKGの実験により、既存のメトリクスはKGCモデルの精度を過大または過小評価する傾向があることが明らかになった。
論文 参考訳(メタデータ) (2025-12-06T04:49:29Z) - MEF: A Systematic Evaluation Framework for Text-to-Image Models [21.006921005280493]
現在の評価は、総合ランキングにELO、次元別スコアにMOSのいずれかに依存している。
我々は、T2Iモデルを評価するための体系的で実践的なアプローチであるマジック・アセスメント・フレームワーク(MEF)を紹介する。
評価フレームワークをリリースし,Magic-Bench-377を完全オープンソースにし,視覚生成モデルの評価研究を進めた。
論文 参考訳(メタデータ) (2025-09-22T15:32:42Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Evaluating how interactive visualizations can assist in finding samples where and how computer vision models make mistakes [1.76602679361245]
コンピュータビジョン(CV)モデルを作成するシステムであるSpriteのコンテキストにおいて、2つのインタラクティブな可視化を提示する。
これらの視覚化は、Spriteのユーザがモデルに苦労している画像を特定し(評価)、(計画的な)画像を選択するのにどのように役立つかを調べる。
論文 参考訳(メタデータ) (2023-05-19T14:43:00Z) - KGxBoard: Explainable and Interactive Leaderboard for Evaluation of
Knowledge Graph Completion Models [76.01814380927507]
KGxBoardは、データの意味のあるサブセットを詳細に評価するためのインタラクティブなフレームワークである。
実験では,KGxBoardを用いることで,標準平均シングルスコアメトリクスでは検出が不可能であったことを強調した。
論文 参考訳(メタデータ) (2022-08-23T15:11:45Z) - Exploiting Behavioral Consistence for Universal User Representation [11.290137806288191]
我々は普遍的ユーザ表現モデルの開発に注力する。
得られた普遍表現には豊富な情報が含まれることが予想される。
行動データを普遍表現にエンコードする自己監視型ユーザモデリングネットワーク(SUMN)を提案する。
論文 参考訳(メタデータ) (2020-12-11T06:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。