論文の概要: ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset
- arxiv url: http://arxiv.org/abs/2606.09648v1
- Date: Mon, 08 Jun 2026 15:40:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.472028
- Title: ArtiFact: A Large-Scale Multi-Modal Cultural Heritage Dataset
- Title(参考訳): ArtiFact: 大規模なマルチモーダル文化遺産データセット
- Authors: Luciano Duarte, Olga Ovcharenko, Sebastian Schelter,
- Abstract要約: 651045の博物館記録のマルチモーダル文化遺産データセットであるArtiFactを提示する。
クロスモーダルなエラー検出には,130209レコードに挿入された7つのエラーカテゴリの分類法を導入する。
セマンティッククエリ処理では、現在のシステムは、文化的近接性、あいまいなオブジェクトタイプ、歴史的に断続的な用語を含むクエリに苦慮していることを示す。
- 参考スコア(独自算出の注目度): 7.868559688632956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal data management has emerged as a central research topic in the database community, spanning data integration, semantic query processing, and data quality assessment. Despite this growing interest, the community lacks large-scale, real-world datasets combining tables, text, and images. We present ArtiFact, a multi-modal cultural heritage dataset of 651045 museum records collected from the Metropolitan Museum of Art, the Art Institute of Chicago, and the Rijksmuseum. We demonstrate the utility of ArtiFact through two downstream tasks. For cross-modal error detection, we introduce a curated taxonomy of seven error categories injected into 130209 records and show that reliably detecting subtle domain-specific errors such as material anachronisms and temporal shifts remain an open challenge. For semantic query processing, we show that current systems struggle with queries involving cultural proximity, ambiguous object types, and historically contingent terminology. Our results position ArtiFact as a challenging benchmark for multi-modal data management research.
- Abstract(参考訳): マルチモーダルデータ管理は、データ統合、セマンティッククエリ処理、データ品質評価など、データベースコミュニティの中心的な研究トピックとして登場した。
このような関心の高まりにもかかわらず、コミュニティには、テーブル、テキスト、イメージを組み合わせた大規模で現実的なデータセットが欠けている。
我々は、メトロポリタン美術館、シカゴ美術館、ライクスミューズアムから収集された651045の博物館記録のマルチモーダルな文化遺産データセットであるArtiFactを提示する。
下流の2つのタスクを通じてArtiFactの実用性を実証する。
クロスモーダルなエラー検出のために,130209レコードに挿入された7つのエラーカテゴリのキュレートされた分類を導入し,物質的アナクロニズムや時間的シフトといった微妙なドメイン固有のエラーを確実に検出できることを示す。
セマンティッククエリ処理では、現在のシステムは、文化的近接性、あいまいなオブジェクトタイプ、歴史的に断続的な用語を含むクエリに苦慮していることを示す。
結果から,ArtiFactはマルチモーダルデータ管理研究の挑戦的なベンチマークとして位置づけた。
関連論文リスト
- On the Cultural Anachronism and Temporal Reasoning in Vision Language Models [35.132248635251266]
ヴィジュアル・ランゲージ・モデル(VLM)は、文化遺産にますます応用されている。
この研究は、これらのモデルが歴史的アーティファクトをどのように解釈するかという根本的な問題を特定する。
我々は、この現象を、時間的に不適切な概念を用いて歴史的対象を誤解釈する傾向である文化的アナクロニズムと定義する。
論文 参考訳(メタデータ) (2026-05-14T16:58:16Z) - BIRD: A Museum Open Dataset Combining Behavior Patterns and Identity Types to Better Model Visitors' Experience [0.0]
本研究では,来訪者,訪問経験,フィードバックに関する包括的かつ詳細な情報を得るための調査を行った。
我々は、文脈データ(人口統計データ、嗜好、訪問習慣、モチベーション、社会的文脈)と行動データ(時空間軌跡、視線データ)を組み合わせたオープンデータセットを構築した。
文献にみられる特徴の大部分が組み合わさった来訪者の身元を再現し,Veron と Levasseur のプロフィールを再現することができた。
論文 参考訳(メタデータ) (2025-12-29T07:44:32Z) - MUSEKG: A Knowledge Graph Over Museum Collections [19.587385754644256]
MuseKGは、博物館情報システムのためのエンドツーエンドの知識グラフフレームワークである。
象徴的・神経的な統合を通じて、構造的・非構造的な博物館データを統一する。
論文 参考訳(メタデータ) (2025-11-20T03:23:36Z) - Bridging the Data Provenance Gap Across Text, Speech and Video [67.72097952282262]
我々は、人気テキスト、音声、ビデオデータセットのモダリティにまたがって、最大かつ第1級の経時的監査を行う。
私たちの手動分析では、1990年から2024年の間に、608言語、798のソース、659の組織、67の国で4000近い公開データセットをカバーしています。
マルチモーダル機械学習アプリケーションは、トレーニングセットのために、YouTubeのようなWebcrawled、synthetic、ソーシャルメディアプラットフォームに圧倒的に移行した。
論文 参考訳(メタデータ) (2024-12-19T01:30:19Z) - Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。
ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。
世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z) - BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。