論文の概要: MÖVE: A Holistic LLM Benchmark for the German Public Sector
- arxiv url: http://arxiv.org/abs/2606.13111v1
- Date: Thu, 11 Jun 2026 09:37:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.70348
- Title: MÖVE: A Holistic LLM Benchmark for the German Public Sector
- Title(参考訳): A Holistic LLM Benchmark for the German Public Sector (英語)
- Authors: Camilla Dalerci, Thilo Michael, Robin Schaefer, Daniel Weinland,
- Abstract要約: MVE(Modelle fr die ffentliche Verwaltung Evaluieren)は、ドイツの公共部門で大規模言語モデル(LLM)を評価するための総合的なベンチマークである。
MVEは2つの相補的な次元にわたる39のモデルを評価することでこれらのギャップに対処する。
我々は、古典的NLPメトリクス、埋め込み方式、LCM-as-a-judgeアプローチを組み合わせたマルチメトリック評価戦略を採用する。
- 参考スコア(独自算出の注目度): 0.5154323601107853
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MÖVE (Modelle für die Öffentliche Verwaltung Evaluieren), a holistic benchmark for evaluating large language models (LLMs) in the context of the German public sector. While LLMs are increasingly adopted in public administration, model selection remains largely ad hoc, and existing benchmarks offer limited guidance: they are predominantly English-centric, US-centric in content, and focus exclusively on task performance. MÖVE addresses these gaps by evaluating 39 models across two complementary dimensions. Performance criteria cover summarization, question answering, and topic extraction. Governance criteria assess hallucination tendencies, energy consumption, provider transparency, and alignment with German constitutional values and knowledge about positions by German political parties. In total, we utilize ten German-language datasets, including gold- and silverstandard datasets that we constructed to reflect public-administration domains. We employ a multi-metric evaluation strategy combining classical NLP metrics, embedding-based methods, and LLM-as-a-judge approaches. Our results show that no single model dominates across all criteria: top performers differ between tasks, and model size alone is a poor predictor of quality. We further evaluate the benchmark itself, analyzing its statistical precision, LLM judge reliability, the impact of our private datasets on model rankings, the sensitivity of our results to prompt formulation, and the validity of our energy consumption estimates. MÖVE is designed as a living benchmark under active development; results are publicly available at https://moeve.bundesdruckerei.de/.
- Abstract(参考訳): 我々は、ドイツの公共セクターの文脈において、大規模言語モデル(LLM)を評価するための総合的なベンチマークであるM'VE(Modelle für die sffentliche Verwaltung Evaluieren)を提示する。
LLMは公共の行政においてますます採用されているが、モデルの選択は大半がアドホックであり、既存のベンチマークは限定的なガイダンスを提供している。
2つの相補的な次元にわたる39のモデルを評価することで、これらのギャップに対処する。
性能基準は要約、質問応答、トピック抽出をカバーしている。
統治基準は、幻覚傾向、エネルギー消費、提供者透明性、ドイツの憲法の価値観とドイツの政党の立場に関する知識との整合性を評価する。
総じて、私たちは、公共行政ドメインを反映して構築した金と銀の標準データセットを含む10のドイツ語データセットを使用します。
我々は、古典的NLPメトリクス、埋め込み方式、LCM-as-a-judgeアプローチを組み合わせたマルチメトリック評価戦略を採用する。
トップパフォーマーはタスクによって異なり、モデルのサイズだけでは品質の予測が不十分である。
さらに、その統計的精度、LCM判定信頼性、モデルランキングに対する個人データセットの影響、定式化を促進するための結果の感度、エネルギー消費推定値の妥当性など、ベンチマーク自体を評価した。
結果はhttps://moeve.bundesdruckerei.de/で公開されている。
関連論文リスト
- Nonparametric LLM Evaluation from Preference Data [86.96268870461472]
本研究では,大規模言語モデル (LLM) を選好データから比較・ランク付けするための非パラメトリック統計フレームワークDMLEvalを提案する。
我々のフレームワークは、LLMを比較したり、ランキングしたりするための強力な最先端の手法を実践者に提供します。
論文 参考訳(メタデータ) (2026-01-29T15:00:07Z) - A Transparent Fairness Evaluation Protocol for Open-Source Language Model Benchmarking on the Blockchain [0.18570740863168358]
大規模言語モデル(LLM)は、現実のアプリケーションにますますデプロイされているが、その公平性に対する懸念は持続している。
本稿では,インターネット・コンピュータ・プロトコル(ICP)ブロックチェーン上でのスマートコントラクトを用いて,オープンソースのLCMの公平性を評価するための透過的評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-07-29T22:49:00Z) - IberBench: LLM Evaluation on Iberian Languages [2.3034630097498883]
大規模言語モデル(LLM)は、特に英語以外の言語に対しては、包括的な評価が難しい。
IberBench は基本的な NLP タスクと産業関連 NLP タスクの両方において LLM 性能を評価するために設計されたベンチマークである。
1億から1400億のパラメータから23のLSMを評価し、その強度と限界に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-23T17:48:25Z) - BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models [0.0]
我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。
LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。
これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
論文 参考訳(メタデータ) (2025-03-31T16:56:52Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。