論文の概要: ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China
- arxiv url: http://arxiv.org/abs/2606.08959v1
- Date: Mon, 08 Jun 2026 03:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.667336
- Title: ChinaHeritaQA: A Culturally-Grounded Visual Question Answering Dataset for World Heritage Sites in China
- Title(参考訳): ChinaHeritaQA:中国の世界遺産の視覚的質問データベース
- Authors: Yi Zhang, Bolei Ma, Yong Cao, Chengyan Wu, Daniel Hershcovich, Anna-Carolina Haensch,
- Abstract要約: ChinaHeritaQAは、中国のユネスコ世界遺産で視覚言語モデル(VLM)の文化的推論能力を評価するためのベンチマークデータセットである。
このデータセットは、7つの認知次元にまたがる14,133のバイリンガル(中国語/英語)の複数選択QAペアとペアリングされた2,279の内蔵画像からなる。
- 参考スコア(独自算出の注目度): 15.354700972682856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ChinaHeritaQA, a multimodal benchmark dataset for evaluating the cultural reasoning abilities of vision-language models (VLMs) on UNESCO World Heritage sites in China. The dataset comprises 2,279 in-the-wild images paired with 14,133 bilingual (Chinese/English) multiple-choice QA pairs spanning seven cognitive dimensions, from basic identity recognition to historical periodization and architectural analysis. Guided by a UNESCO-aligned heritage ontology and verified through rigorous human annotation, the dataset ensures linguistic quality and factual consistency. Evaluations of state-of-the-art VLMs reveal that while top models exceed human performance on average, substantial task-level variation emerges: models excel at visual recognition but struggle with culturally grounded reasoning. Performance also varies by dynasty and region. ChinaHeritaQA reveals that strong visual retrieval does not extend to cultural and historical understanding. We release the dataset to support future research on culturally aware multimodal learning.
- Abstract(参考訳): 中国におけるユネスコの世界遺産に,視覚言語モデル(VLM)の文化的推論能力を評価するためのマルチモーダル・ベンチマーク・データセットであるChinaHeritaQAを紹介する。
このデータセットは、基本的アイデンティティ認識から歴史的周期化、アーキテクチャ分析に至るまで、7つの認知次元にまたがる14,133のバイリンガル(中国語/英語)複数選択QAペアとペアリングされた2,279の内在画像からなる。
ユネスコの遺産オントロジーによってガイドされ、厳密な人間のアノテーションを通じて検証され、このデータセットは言語品質と事実整合性を保証する。
最先端のVLMの評価によると、トップモデルは平均して人間のパフォーマンスを上回るが、実際のタスクレベルの変動は出現する。
パフォーマンスも王朝や地域によって異なる。
ChinaHeritaQAは、強力な視覚的検索が文化的、歴史的理解に及ばないことを明らかにした。
文化に配慮したマルチモーダル学習の今後の研究を支援するためのデータセットをリリースする。
関連論文リスト
- MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。
これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。
i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-10-07T14:12:12Z) - Toward Socially Aware Vision-Language Models: Evaluating Cultural Competence Through Multimodal Story Generation [2.0467354053171243]
本稿では,マルチモーダルストーリー生成による視覚言語モデル(VLM)の文化的能力の総合評価を行う。
分析の結果,文化的に特有な語彙が多岐にわたる文化的適応能力,家族用語,地理的マーカーが明らかとなった。
文化的な能力はアーキテクチャによって劇的に変化し、いくつかのモデルは逆の文化的アライメントを示し、自動化されたメトリクスは人間の評価と矛盾するアーキテクチャ上のバイアスを示しています。
論文 参考訳(メタデータ) (2025-08-22T19:39:02Z) - Grounding Multilingual Multimodal LLMs With Cultural Knowledge [48.95126394270723]
本稿では,MLLMを文化的知識に根ざしたデータ中心型アプローチを提案する。
CulturalGroundは、42の国と39の言語にまたがる2200万の高品質で文化的に豊かなVQAペアで構成されている。
我々は,MLLM CulturalPangeaをCulturalGround上で学習し,汎用性を維持するために,標準の多言語指導訓練データをインターリーブする。
論文 参考訳(メタデータ) (2025-08-10T16:24:11Z) - TCC-Bench: Benchmarking the Traditional Chinese Culture Understanding Capabilities of MLLMs [13.069833806549914]
中国伝統文化理解ベンチマーク(TCC-Bench)を提案する。
TCC-Benchは、文化的に豊かで視覚的に多様なデータで構成されており、博物館の工芸品、日常の生活シーン、漫画、その他の文化的に重要な文脈の画像が組み込まれている。
テキストのみのモードでGPT-4oを利用する半自動パイプラインを採用し、候補問題を生成し、続いて人間によるキュレーションを行い、データ品質を保証し、潜在的なデータ漏洩を回避する。
論文 参考訳(メタデータ) (2025-05-16T14:10:41Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - CIVICS: Building a Dataset for Examining Culturally-Informed Values in Large Language Models [59.22460740026037]
大規模言語モデル(LLM)の社会的・文化的変動を評価するためのデータセット「CIVICS:文化インフォームド・バリュース・インクルーシブ・コーパス・フォー・ソシエティ・インパクト」
我々は、LGBTQIの権利、社会福祉、移民、障害権利、代理など、特定の社会的に敏感なトピックに対処する、手作りの多言語プロンプトのデータセットを作成します。
論文 参考訳(メタデータ) (2024-05-22T20:19:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。