論文の概要: Automated sign detection across the Electronic Babylonian Library: A large-scale dataset and end-to-end cuneiform OCR pipeline
- arxiv url: http://arxiv.org/abs/2606.22608v1
- Date: Sun, 21 Jun 2026 17:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:25:36.999438
- Title: Automated sign detection across the Electronic Babylonian Library: A large-scale dataset and end-to-end cuneiform OCR pipeline
- Title(参考訳): 電子バビロニア図書館におけるサインの自動検出:大規模データセットとエンドツーエンドのOCRパイプライン
- Authors: Wentao Che, Esteban Garcés Arias, Asim Niaz, Andreas Bender, Enrique Jiménez,
- Abstract要約: これまでで最大の注釈付きcuneiform signデータセットを使用し、Deformable Detection Transformer(DETR)ベースのオブジェクト検出モデルを評価する。
提案システムでは, 自動タブレット側抽出, ライングルーピング, n-gram によるテキスト類似性評価と, 視覚的手話検出とテキスト構造を統合した。
推測では、Electronic Babylonian Library (eBL) コーパスの87,668個のタブレットフラグメントに適用され、約290万のサイン検出が可能である。
- 参考スコア(独自算出の注目度): 0.8481798330936975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning to read cuneiform tablets is an extremely demanding task; consequently, of the roughly half million excavated tablets, only a small fraction has been analysed by Assyriologists. Computer vision offers a promising avenue for decipherment but requires large, densely annotated datasets. To address this limitation, the largest annotated cuneiform sign dataset to date is used, and a Deformable Detection Transformer (DETR)-based object detection model is evaluated under two class granularities of 173 and 106 classes. The proposed system integrates automatic tablet-side extraction, heuristic line grouping, and n-gram-based textual similarity evaluation to bridge visual sign detection and textual structure, and achieves consistent improvements of up to 28-37% over prior work on COCO-style detection metrics. At inference, the method is applied to 87,668 tablet fragments from the Electronic Babylonian Library (eBL) corpus, producing nearly 2.9 million sign detections. Although the approach operates without linguistic priors and remains sensitive to tablet damage and layout variability, it provides a scalable and interpretable foundation for corpus-wide cuneiform analysis and supports future integration with multimodal and linguistic modelling frameworks.
- Abstract(参考訳): その結果、約50万個の出土タブレットのうち、アッシリア学者が分析した割合はごくわずかである。
コンピュータビジョンは、解読のための有望な道を提供するが、大きく、密度の高い注釈付きデータセットを必要とする。
この制限に対処するために、これまでで最大の注釈付きキュニフォーム符号データセットを使用し、変形検出変換(DETR)に基づくオブジェクト検出モデルを、173クラスと106クラスの2つのクラス粒度で評価する。
提案システムでは, 自動タブレット側抽出, ヒューリスティックライングルーピング, およびn-gramベースのテキスト類似性評価を統合し, 従来のCOCOスタイル検出指標よりも最大28~37%の改善を実現している。
推測では、Electronic Babylonian Library (eBL) コーパスの87,668個のタブレットフラグメントに適用され、約290万のサイン検出が可能である。
このアプローチは言語的な先行性がなく、タブレットの損傷やレイアウトのばらつきに敏感なままだが、コーパスワイドなキュニフォーム解析のためのスケーラブルで解釈可能な基盤を提供し、将来のマルチモーダルおよび言語モデリングフレームワークとの統合をサポートする。
関連論文リスト
- Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model [0.0]
本稿では,凍結した病理基盤モデルとレポート生成用トランスフォーマーデコーダを組み合わせた階層型視覚言語フレームワークを提案する。
WSI 処理をトラクタブルにするために,複数解像度のピラミッド型パッチ選択を行い,背景やアーティファクトを除去する。
生物医学用語をよりよく表現するために,バイオGPTを用いて出力をトークン化する。
論文 参考訳(メタデータ) (2026-02-18T12:55:20Z) - From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature [86.7745150269054]
パネル2パッチ(Panel2Patch)は、既存のバイオメディカル科学文献から階層構造をマイニングする新しいデータパイプラインである。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、ビジュアルマーカーを解析し、フィギュア、パネル、パッチレベルにおいて階層的に協調した視覚言語ペアを構築する。
我々は,不均一な目的を粗いドクティックな記述から細かな領域に焦点を絞ったフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
論文 参考訳(メタデータ) (2025-12-02T09:37:51Z) - LRANet++: Low-Rank Approximation Network for Accurate and Efficient Text Spotting [118.93173826110815]
高精度検出のための低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の固有形状相関を利用して、形状表現の一貫性とコンパクト性を実現する。
我々は、LRANet++と呼ばれるエンドツーエンドテキストスポッティングフレームワークを構築するために、拡張検出モジュールを軽量な認識ブランチに統合する。
論文 参考訳(メタデータ) (2025-11-08T03:08:03Z) - Automated Parsing of Engineering Drawings for Structured Information Extraction Using a Fine-tuned Document Understanding Transformer [0.352650106994433]
本稿では,構造化情報抽出のためのハイブリッドディープラーニングフレームワークを提案する。
オブジェクト指向バウンディングボックス(OBB)モデルと変換器ベースの文書解析モデル(Donut)を統合する。
提案するフレームワークは、精度を改善し、手作業の労力を削減するとともに、精度駆動型産業におけるスケーラブルなデプロイメントをサポートする。
論文 参考訳(メタデータ) (2025-05-02T18:33:21Z) - Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [9.325818199739759]
本稿では,半導体材料のバンドギャップを予測するために,RoBERTa,T5,Llama-3,MatSciBERTなどのトランスフォーマーベース言語モデルについて検討する。
入力は、化学組成、結晶系、空間群、その他の構造的および電子的性質などの重要な材料特性を符号化する。
論文 参考訳(メタデータ) (2025-01-07T00:56:26Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - Text2Topic: Multi-Label Text Classification System for Efficient Topic
Detection in User Generated Content with Zero-Shot Capabilities [2.7311827519141363]
マルチラベル分類性能の高いText to Topic(Text2Topic)を提案する。
Text2Topicはゼロショット予測をサポートし、ドメイン固有のテキスト埋め込みを生成し、プロダクションスケールのバッチ推論を可能にする。
このモデルは現実世界のストリーム処理プラットフォームにデプロイされ、92.9%のマイクロmAPで他のモデルより優れている。
論文 参考訳(メタデータ) (2023-10-23T11:33:24Z) - Simple Open-Vocabulary Object Detection with Vision Transformers [51.57562920090721]
本稿では,画像テキストモデルをオープン語彙オブジェクト検出に転送するための強力なレシピを提案する。
我々は、最小限の修正、コントラスト的な画像テキスト事前学習、エンドツーエンド検出細調整を備えた標準のVision Transformerアーキテクチャを使用する。
我々は、ゼロショットテキスト条件とワンショット画像条件オブジェクト検出において、非常に強力な性能を達成するために必要な適応戦略と正規化を提供する。
論文 参考訳(メタデータ) (2022-05-12T17:20:36Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Real-Time Scene Text Detection with Differentiable Binarization and
Adaptive Scale Fusion [62.269219152425556]
セグメンテーションに基づくシーンテキスト検出手法はシーンテキスト検出分野において大きな注目を集めている。
本稿では,二項化処理をセグメンテーションネットワークに統合する分散二項化(DB)モジュールを提案する。
アダプティブ・スケール・フュージョン (ASF) モジュールは, 異なるスケールの特徴を適応的に融合させることにより, スケールのロバスト性を向上させる。
論文 参考訳(メタデータ) (2022-02-21T15:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。