論文の概要: WeGenBench: A Multidimensional Diagnostic Benchmark towards Text-to-Image Model Optimization
- arxiv url: http://arxiv.org/abs/2606.20100v1
- Date: Thu, 18 Jun 2026 11:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.817641
- Title: WeGenBench: A Multidimensional Diagnostic Benchmark towards Text-to-Image Model Optimization
- Title(参考訳): WeGenBench: テキスト・画像モデル最適化のための多次元診断ベンチマーク
- Authors: Qian Liang, Xiaomin Li, Ying Zhang, Jia Xu, Lihao Ni, Hongrui Li, Jingjing Li, Jing Lyu, Chen Li,
- Abstract要約: WeGenBenchは、テキストから画像への生成能力を総合的に評価するための新しいベンチマークである。
私たちのベンチマークでは、中国語と英語の微妙なバランスのとれた2つの主要カテゴリで合計4000のテストプロンプトで構成されています。
提案手法は,評価結果と詳細な推論軌跡の両方を導出し,評価結果の精度と音質の厳密な検証を容易にする。
- 参考スコア(独自算出の注目度): 16.83270042322323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image generation models have demonstrated remarkable capabilities in synthesizing highly realistic images from text inputs alone. Although existing benchmarks can evaluate the generation capabilities of various models to some extent, they struggle to comprehensively and accurately measure performance across multiple dimensions, often failing to reveal the inherent deficiencies of models in specific categories. To address these limitations, we propose WeGenBench, a novel benchmark designed for the comprehensive, multi-perspective evaluation of text-to-image generation capabilities. Our benchmark comprises a total of 4,000 test prompts across two primary categories, meticulously balanced between Chinese and English to evaluate bilingual and cross-cultural generation capabilities. Beyond macroscopic scene classification, we annotate each prompt with multi-dimensional tags tailored to the distinct content and challenges of each language, thereby refining the generation tasks into more specific sub-categories. Through a cross-dimensional evaluation mechanism leveraging both scene classifications and multi-dimensional tags, WeGenBench can precisely pinpoint model shortcomings in specific generation categories. Furthermore, to measure generation quality more accurately, we design and validate several novel evaluation metrics by integrating Vision-Language Models (VLMs), which assess model performance on domain-specific tasks from three core aspects. Crucially, our approach yields both the assessment outcomes and the detailed reasoning trajectories, facilitating a rigorous verification of the accuracy and soundness of the evaluation results. Finally, we conduct systematic benchmarking on current state-of-the-art methods and provide an in-depth analysis of the limitations present in existing models.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ生成モデルは、テキスト入力のみから高度にリアルなイメージを合成する際、顕著な能力を示している。
既存のベンチマークは、様々なモデルの生成能力をある程度評価できるが、複数の次元にわたるパフォーマンスを包括的かつ正確に測定することは困難であり、しばしば特定のカテゴリにおけるモデル固有の欠陥を明らかにするのに失敗する。
これらの制約に対処するために,テキスト・ツー・イメージ生成能力の包括的・多視点評価のために設計された新しいベンチマークWeGenBenchを提案する。
我々のベンチマークでは、中国語と英語の微妙なバランスをとり、バイリンガルと異文化間の生成能力を評価するため、2つの主要カテゴリで合計4,000の試験プロンプトを作成した。
マクロなシーン分類以外にも、各言語の異なる内容や課題に合わせた多次元タグで各プロンプトに注釈を付け、生成タスクをより特定のサブカテゴリに書き換える。
WeGenBenchは、シーン分類と多次元タグの両方を活用するクロス次元評価機構により、特定の生成カテゴリにおけるモデルの欠点を正確に特定することができる。
さらに、生成品質をより正確に測定するために、3つのコア側面からドメイン固有のタスクのモデル性能を評価するビジョン・ランゲージ・モデル(VLM)を統合することにより、いくつかの新しい評価指標を設計し、検証する。
本手法は,評価結果と詳細な推論軌跡の両方を導出し,評価結果の精度と音質の厳密な検証を容易にする。
最後に、現在の最先端手法の系統的なベンチマークを行い、既存のモデルに存在する限界を詳細に分析する。
関連論文リスト
- VGA-Bench: A Unified Benchmark and Multi-Model Framework for Video Aesthetics and Generation Quality Evaluation [65.0648741395158]
VGA-Benchは、ビデオ生成の品質と美的品質を評価するための統一されたベンチマークである。
我々は1016の多様なプロンプトを設計し、12のビデオ生成モデルを用いて6万以上のビデオの大規模データセットを生成する。
我々のモデルは人間の判断と信頼できる一致を実現し、精度と効率の両方を提供する。
論文 参考訳(メタデータ) (2026-04-11T09:44:39Z) - UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation [40.644151228285246]
テキスト・ツー・イメージ生成のための統合意味評価ベンチマークであるUniGenBench++を紹介する。
カバー範囲と効率性を確保するため、600のプロンプトが階層的に編成されている。
英語と中国語の両方のプロンプトを短くて長い形で提供する。
論文 参考訳(メタデータ) (2025-10-21T14:56:46Z) - OneIG-Bench: Omni-dimensional Nuanced Evaluation for Image Generation [23.05106664412349]
テキスト・ツー・イメージ(T2I)モデルは、テキスト・プロンプトに整合した高品質な画像を生成する上で大きな注目を集めている。
OneIG-Benchは、T2Iモデルを複数の次元で評価するためのベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-06-09T17:50:21Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。