論文の概要: AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels
- arxiv url: http://arxiv.org/abs/2606.15510v1
- Date: Sat, 13 Jun 2026 23:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.666172
- Title: AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels
- Title(参考訳): AthDGC: Indo-European Parallelsを備えたオープンなダイアクロニックなギリシャのツリーバンク
- Authors: Nikolaos Lavidas, Kiki Nikiforidou, Dag Haug, Leonid Kulikov, Vassiliki Geka, Vassileios Symeonidis, Theodoros Michalareas, Sofia Chionidi, Anastasia Tsiropina, Eleni Plakoutsi, Evangelos Argyropoulos,
- Abstract要約: AthDGC(Athens-PROIEL)は、ギリシャのオープンでエンドツーエンドのワークフローであり、依存性を分離したツリーバンクである。
これは、古代ギリシア、古代古代、ビザンティン、後期ビザンティン、古代ギリシア、近代ギリシアの8つの時代をまたがる、最初の公的な許可を受けたギリシャのツリーバンクである。
新約聖書をラテン語(ヴァルゲート)、ゴシック(ウルフィラ)、旧教会スラヴ語(マリアヌス)、古典アルメニア語に直交する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AthDGC ("Athens-PROIEL") is an open, end-to-end workflow and dataset. It is, to the best of our knowledge, the first openly licensed dependency-parsed treebank of Greek that spans eight diachronic periods, namely Archaic, Classical, Koine, Late Antique, Byzantine, Late Byzantine, Early Modern, and Modern Greek, under a single PROIEL XML 2.0 schema, with verse-level cross-alignment of the New Testament to Latin (Vulgate), Gothic (Wulfila), Old Church Slavonic (Marianus), and Classical Armenian. AthDGC builds on the PROIEL Treebank Family (Haug and Johndal 2008; Eckhoff et al. 2018), which established the schema and the Koine-Greek reference set for the project. Annotation uses the Stanford Stanza PROIEL-trained workflow; sentence-level alignment uses LaBSE, a multilingual sentence-embedding model; word-level alignment uses multilingual-BERT attention through the AwesomeAlign procedure. The v0.4 release provides curated samples and the open-source toolkit; the full annotated corpus partitions remain under v0.5 audit on the Greek national HPC. Quantitative scale, per-witness verse counts, and per-period annotated-row counts are reported in the v0.5 release notes, after the audit pass completes. Concept DOI: 10.5281/zenodo.20439182.
- Abstract(参考訳): AthDGC(Athens-PROIEL)は、オープンでエンドツーエンドのワークフローとデータセットである。
私たちの知る限りでは、古代ギリシア、古代古代、ビザンティン、後期ビザンティン、初期近代、近代ギリシアの8つの時代をまたがる、最初の公然と認可された依存性を分けたギリシャのツリーバンクであり、単一のProIEL XML 2.0スキーマの下で、ラテン語への新約聖書(ウルゲート)、ゴシック(ウルフィラ)、旧教会スラヴ語(マリアンス)、古典アルメニア語である。
AthDGC は PROIEL Treebank Family (Haug and Johndal 2008; Eckhoff et al 2018) 上に構築されており、プロジェクトのためのスキーマと Koine-Greek 参照セットを確立している。
アノテーションはStanford Stanza PROIEL訓練ワークフローを使用し、文レベルのアライメントは多言語文埋め込みモデルであるLaBSEを使用し、単語レベルのアライメントはAwesomeAlign手順を通じて多言語BERTのアライメントを使用する。
v0.4リリースでは、キュレートされたサンプルとオープンソースツールキットが提供されている。
監査パスが完了した後のv0.5リリースノートには、定量的スケール、目撃者毎のバース数、周期ごとのアノテートされたロー数が報告されている。
コンセプトDOI:10.5281/zenodo.20439182
関連論文リスト
- A Reproducible Universal Dependencies-Style Pipeline for Katharevousa Greek Parliamentary Text [0.0]
我々は、ギリシャのジュンタ時代初期のカサレヴサ議会の質問に対して、普遍的な依存関係スタイルの構文解析資源を構築し、評価する。
パイプラインは、OCR対応の再構築、スキーマ制約付きLCMアシストアノテーション、自動検証、決定論的CoNLL-Uスナップショット、固定分割評価、モデル系列比較をリンクする。
最強の外部ベースラインであるスパチェ・ギリシャは、0.4183 LASに達する。
本論文は,歴史的に困難なOCRを再利用可能な統語基盤に変えるための監査可能な方法論を提示する。
論文 参考訳(メタデータ) (2026-05-21T19:16:20Z) - DocAtlas: Multilingual Document Understanding Across 80+ Languages [58.715440331861295]
本稿では,82言語を対象とした高忠実度OCRデータセットとベンチマークを構築するフレームワークDocAtlasを紹介する。
我々のデュアルパイプライン、ネイティブDOCX文書の微分レンダリング、左右スクリプトの合成ベース生成は正確な構造アノテーションを生成する。
論文 参考訳(メタデータ) (2026-05-12T18:09:38Z) - The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions [0.0]
パトログア・グラエカ・コーパス(Patrologia Graeca Corpus)は、古代ギリシアの19世紀の版において、最初の大規模なオープンなOCRと言語資源である。
このコレクションは、複雑なバイリンガル(ギリシャ・ラテン語)のレイアウトで印刷されたPatrologia Graeca(PG)の残されている未デジタル化の巻をカバーしており、高度に劣化したポリトニック・ギリシャのタイポグラフィーが特徴である。
We achieve a character error rate (CER) of 1.05% and a word error rate (WER) of 4.69%。
その結果得られたコーパスには、約600万の補修と音声タグ付きトークンが含まれており、フルに整列している。
論文 参考訳(メタデータ) (2026-03-10T10:21:54Z) - Opera Graeca Adnotata: Building a 34M+ Token Multilayer Corpus for Ancient Greek [0.0]
オペラ・グラエカ・アドノタタ(Opera Graeca Adnotata, OGA)は、古代ギリシア語で最大のオープンアクセス型多層コーパスである。
OGAは1,687の著作物と、PerseusDLとOpenAndLatin GitHubリポジトリから提供される34M以上のトークンで構成されている。
論文 参考訳(メタデータ) (2024-03-31T16:54:29Z) - Structured Dialogue Discourse Parsing [79.37200787463917]
談話解析は、多人数会話の内部構造を明らかにすることを目的としている。
本稿では,符号化と復号化という2つの観点から,従来の作業を改善する原理的手法を提案する。
実験の結果,本手法は,STACでは2.3,Mollweniでは1.5,先行モデルでは2.3を上回った。
論文 参考訳(メタデータ) (2023-06-26T22:51:01Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - A Second Wave of UD Hebrew Treebanking and Cross-Domain Parsing [8.373151777137792]
本稿では,ヘブライ語ウィキペディアから選択したさまざまなトピックから,新たに自由なヘブライ語のUDツリーバンクを提案する。
コーパスの導入とアノテーションの品質評価に加えて,成長度に基づいて自動検証ツールをデプロイする。
我々は、最新の言語モデリングと既存のトランスフォーマーベースのアプローチの漸進的な改善を組み合わせて、UD NLPタスクにおける新しい最先端(SOTA)結果を得る。
論文 参考訳(メタデータ) (2022-10-14T14:52:07Z) - Multilingual Knowledge Graph Completion with Self-Supervised Adaptive
Graph Alignment [69.41986652911143]
知識グラフ(KG)における行方不明事象を予測するための,新たな自己教師付き適応グラフアライメント(SS-AGA)手法を提案する。
SS-AGAはすべてのKGをグラフ全体として新しいエッジタイプとしてアライメントする。
パブリック多言語DBPedia KGおよび新たに開発された産業多言語EコマースKGの実験は、SS-AGAの有効性を実証的に実証している。
論文 参考訳(メタデータ) (2022-03-28T18:00:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。