論文の概要: TimeLens: On-Device Artifact Recognition with Retrieval-Augmented Question Answering for the Grand Egyptian Museum
- arxiv url: http://arxiv.org/abs/2606.13267v1
- Date: Thu, 11 Jun 2026 12:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.783552
- Title: TimeLens: On-Device Artifact Recognition with Retrieval-Augmented Question Answering for the Grand Egyptian Museum
- Title(参考訳): TimeLens: エジプト大博物館の検索付質問回答によるデバイス上でのアーティファクト認識
- Authors: Rawan Hesham, Ali Ashraf, Amr Ahmed, Malak Alaa, Omar Ahmed, Omar Wagih,
- Abstract要約: TimeLensは、大エジプト博物館のAIによるバイリンガルモバイルガイドだ。
展示会に電話を向けると、訪問者はリアルタイムで認識されたアーティファクトを見て、英語またはアラビア語でフォローアップ質問をすることができる。
- 参考スコア(独自算出の注目度): 0.7475622506207386
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: TimeLens is an AI-powered bilingual mobile guide for the Grand Egyptian Museum (GEM). Pointing a phone at an exhibit, a visitor sees the artifact recognized in real time and can ask follow-up questions answered in English or Arabic. The work addresses three problems specific to in-gallery deployment: fine-grained visual similarity among 51 catalogued artifacts (many near-identical Ramesside statues), the gap between curated training data and handheld camera conditions, and the risk of an AI guide stating unsupported historical facts. Two engineering contributions are reported. First, an on-device artifact detector was developed through a data-quality-driven iteration study -- from foundation-model auto-annotation (YOLO-World), through spatial label-cleaning rules, to a fully hand-annotated dataset -- isolating label quality as the decisive factor: the final YOLOv8n model resolves every previously failing class while remaining a 5.97 MB TensorFlow Lite asset that runs in real time on a mid-range phone (mAP@0.5 = 0.995, mAP@0.5:0.95 = 0.924). Second, a bilingual Retrieval-Augmented Generation (RAG) guide, grounded in a 108-record ChromaDB knowledge base, was benchmarked across seven candidate language models, with Gemma 4 E2B (Q4 K M) selected; ten targeted optimizations reduce end-to-end latency from over 30 s to approximately 10 s. Both subsystems are integrated in a production Flutter application with bilingual interface, museum location gating, and text-to-speech support.
- Abstract(参考訳): TimeLens(タイムレンス)は、大エジプト博物館(GEM)のAIによるバイリンガルモバイルガイドである。
展示会に電話を向けると、訪問者はリアルタイムで認識されたアーティファクトを見て、英語またはアラビア語で回答されたフォローアップ質問をすることができる。
この作品は、51のカタログ化されたアーティファクト(多くの身近なRamesside像)のきめ細かい視覚的類似性、キュレートされたトレーニングデータとハンドヘルドカメラの条件のギャップ、そして歴史的事実を述べるAIガイドのリスクの3つに対処している。
2つの技術貢献が報告されている。
まず、基礎モデルオートアノテーション(YOLO-World)から、空間的ラベルクリーニングルール(空間的ラベルクリーニングルール)から、完全なハンドアノテートデータセット(完全なハンドアノテートデータセット)に至るまで、データ品質駆動の反復研究を通じて、デバイス上のアーティファクト検出器を開発した。
第2に、108レコードのChromaDBナレッジベースをベースとした2言語対応検索生成(RAG)ガイドが7つの候補言語モデルでベンチマークされ、Gemma 4 E2B (Q4 K M)が選択された。
どちらのサブシステムもFlutterアプリケーションに統合されており、バイリンガルインターフェース、ミュージアムロケーションゲーティング、テキスト音声サポートなどを備えている。
関連論文リスト
- Selective Attention System (SAS): Device-Addressed Speech Detection for Real-Time On-Device Voice AI [1.399948157377307]
時間的曖昧な発話を伴うマルチ話者環境において、このタスクは発話局所分類タスクよりも、対話履歴よりも逐次ルーティング問題として効果的にモデル化されていることを示す。
本稿では,これをSDAR(Sequential Device-Addressed Routing)として定式化し,この定式化をインスタンス化するデバイス上でのSelective Attention System(SAS)を提案する。
論文 参考訳(メタデータ) (2026-04-09T16:11:15Z) - FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark [62.2297310186354]
FLUX-Reason-6Mは600万の高品質FLUX生成画像と2000万のバイリンガル(英語と中国語)記述からなる巨大なデータセットである。
PRISM-Benchは、7つの異なるトラックを持つ新しい評価標準を提供する。
論文 参考訳(メタデータ) (2025-09-11T17:59:59Z) - UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat [1.2788586581322734]
サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
論文 参考訳(メタデータ) (2025-08-24T14:32:15Z) - MazeEval: A Benchmark for Testing Sequential Decision-Making in Language Models [0.0679877553227375]
本稿では,大規模言語モデルにおける純粋空間推論の分離と評価を目的としたベンチマークであるMazeEvalを紹介する。
我々は,英語とアイスランド語で同一の迷路にまたがる8つの最先端LLMを評価し,空間能力の言語間移動を評価する。
論文 参考訳(メタデータ) (2025-07-27T19:33:45Z) - Understanding Museum Exhibits using Vision-Language Reasoning [52.35301212718003]
博物館は、様々なエポック、文明、地域の文化遺産や歴史的遺物の保管所として機能している。
ドメイン固有モデルは、インタラクティブなクエリ解決と歴史的洞察を得るために不可欠である。
世界中の展示品に対して,65万枚の画像と2億枚の質問回答ペアの大規模なデータセットを収集し,キュレートする。
論文 参考訳(メタデータ) (2024-12-02T10:54:31Z) - AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。
AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z) - TextSquare: Scaling up Text-Centric Visual Instruction Tuning [62.878378882175284]
大規模かつ高品質な命令チューニングデータセットSquare-10Mを作成するための新しいアプローチを提案する。
われわれのモデルであるTextSquareは、最先端のText中心のMLLMをはるかに上回っている。
さらに、GPT4VやGeminiといったトップクラスのモデルでは、テキスト中心のベンチマークを10つ中6つで上回っている。
論文 参考訳(メタデータ) (2024-04-19T11:38:08Z) - Generative AI Text Classification using Ensemble LLM Approaches [0.12483023446237698]
大規模言語モデル(LLM)は、さまざまなAIや自然言語処理タスクで素晴らしいパフォーマンスを示している。
本研究では,異なる学習済みLLMから確率を生成するアンサンブルニューラルモデルを提案する。
AIと人間の生成したテキストを区別する最初のタスクとして、私たちのモデルは第5位と第13位にランクされた。
論文 参考訳(メタデータ) (2023-09-14T14:41:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。