論文の概要: The Metanym Game: A Self-Contained, Self-Consistent LLM Peer-Community Benchmark for Structural Intelligence
- arxiv url: http://arxiv.org/abs/2606.21008v1
- Date: Fri, 19 Jun 2026 00:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 11:15:54.032007
- Title: The Metanym Game: A Self-Contained, Self-Consistent LLM Peer-Community Benchmark for Structural Intelligence
- Title(参考訳): メタネムゲーム: 構造知能のための自己完結型自己持続型LLMピアコミュニティベンチマーク
- Authors: David Nordfors,
- Abstract要約: メタネムゲーム(メタネムゲーム、メタネムゲーム、英: metanym game)は、認知科学の確立した構成要素に対する構造的知性を測定するLLMのワードゲームである。
競技者は、新しい種類の類推テスト、類推可能な文を文単位で作成する。
カウンシル・オブ・ピアスのベンチマークでは、競技者はお互いの創造物を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The metanym game is a competitive word game for LLMs that measures structural intelligence against established cognitive-science constructs. No content is given in advance; the contestants create all of it -- a new kind of analogy test, analogical production falsifiable sentence by sentence, with no fixed test set to leak into training (contamination-resistant by construction). In the council-of-peers benchmark, the contestants also rate each other's creations. We introduce the first spectral solution, to our knowledge, to the wicked problem of benchmarking LLMs' factual accuracy without golden keys or oracle models: one singular value decomposition of the evaluators' ratings matrix yields their competence as both generators and judges of true statements at once. Competence on the subjective criteria comes from each judge's rating consistency as the yardstick shifts. The factual rating correlates with GPQA Diamond at Pearson r = 0.92. Scored separately, making and judging dissociate -- judging is the scarcer skill: the strongest generators are middling judges, the sharpest judge a mid-pack generator. To scale, the strongest players form a council that does the official benchmarking; its seats are contestable -- a stronger model earns one on the benchmark's own rating. The benchmark is entirely self-contained and self-consistent, a stable gauge over time.
- Abstract(参考訳): メタネムゲーム(メタネムゲーム、メタネムゲーム、英: metanym game)は、認知科学の確立した構成要素に対する構造的知性を測定するLLMのワードゲームである。
競争者は、新しい種類の類推テスト、類推可能な文を文ごとに生成し、訓練にリークする固定されたテストセット(建設による汚染に抵抗する)を全く持たない。
カウンシル・オブ・ピアスのベンチマークでは、競技者はお互いの創造物を評価する。
評価器のレーティング行列の1つの特異値分解は、生成器と真のステートメントの判定を同時に行うことができる。
主観的基準の能力は、ヤードスティックがシフトするにつれて、各裁判官の格付けの整合性から生じる。
実際の評価はピアソン r = 0.92 のGPQAダイアモンドと相関している。
最強の発電機は中間審査員であり、最も鋭い裁判官は中間審査員である。
規模を拡大するため、最強の選手は公式のベンチマークを行う評議会を形成します。
ベンチマークは完全に自己完結型で自己完結型で、時間とともに安定している。
関連論文リスト
- Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。
完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。
標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文 参考訳(メタデータ) (2026-02-15T20:51:29Z) - When Judgment Becomes Noise: How Design Failures in LLM Judge Benchmarks Silently Undermine Validity [21.192000569821943]
我々は、厳密な目標と検証可能な構成がなければ、ベンチマークのランキングは、ほぼノイズの多い高信頼度ランキングを生成することができると論じる。
本稿では,Arena-Hard Autoが使用するELOスタイルのアグリゲーションが崩壊し,真のランキングの不確かさをマスクすることを示す。
我々の結果は、妥当性を損なう設計上の失敗を強調し、より良いスコープで信頼性に配慮したベンチマークを構築するための実用的な原則を提供する。
論文 参考訳(メタデータ) (2025-09-24T16:26:47Z) - Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。
人の判断と最大で97%の相関を保ち コストを大幅に削減します
論文 参考訳(メタデータ) (2025-05-19T07:34:25Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。