論文の概要: MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models
- arxiv url: http://arxiv.org/abs/2606.09435v1
- Date: Mon, 08 Jun 2026 12:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.070136
- Title: MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models
- Title(参考訳): MUDIDI:言語モデルを用いた多言語辞書ディジタイズのための2段階フレームワーク
- Authors: David Setiawan, Temuulen Khishigsuren, Milind Agarwal, Pagnarith Pit, Aso Mahmudi, Ekaterina Vylomova,
- Abstract要約: MUDIDIは多言語辞書のデジタル化のための2段階のフレームワークである。
我々はOCRシステム、汎用大言語モデル、ビジョン言語モデルをベンチマークする。
辞書導入などの追加情報を補足することで,デジタル辞書の品質が向上することを示す。
- 参考スコア(独自算出の注目度): 4.398791742983863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual dictionaries are among the most valuable documentary resources for low-resource and endangered languages, yet many remain available only as scans. For many decades, their digitization and conversion into a machine-readable format was nearly impossible due to language-specific scripts, complex multi-column layouts full of entries with abbreviations and cross-references. Recent vision-language models offer a promising solution, but it is unclear how well they preserve characters, markup, and process lexicographic structure. We introduce MUDIDI, a two-stage framework for multi-lingual dictionary digitization. Stage One evaluates the quality of character recognition and markup preservation; Stage Two focuses on dictionary entry segmentation with subsequent mapping into a machine-readable lexicographic schema, SIL's Multi-Dictionary Formatter. We also release a dataset that consists of human-annotated lexicographic entries collected from 30 public-domain dictionaries featuring diverse writing systems, language families, and formats. We benchmark OCR systems, general-purpose Large Language Models (LLMs), and Vision Language Models (VLMs) on the dataset, demonstrating superior performance of LLMs across most writing systems and languages in both stages, and provide practical guidelines on improving the results for more challenging scenarios. Finally, we show that supplementing additional information, such as dictionary introduction, to the LLMs can improve the quality of the digitized dictionary. Github: https://github.com/DavidSamuell/MUDIDI-Pipeline-for-Digitization-of-Multilingual-Dictionary/
- Abstract(参考訳): マルチリンガル辞書は、低リソース言語や絶滅危惧言語にとって最も貴重な資料の1つであるが、多くはスキャンとしてのみ利用可能である。
数十年の間、それらのデジタル化と機械可読フォーマットへの変換は、言語固有のスクリプト、省略形と相互参照を備えたエントリでいっぱいの複雑なマルチカラムレイアウトのためにほぼ不可能であった。
最近の視覚言語モデルは有望な解決策を提供するが、文字、マークアップ、プロセスレキソグラフィー構造をどのように保存するかは定かではない。
MUDIDIは多言語辞書のデジタル化のための2段階のフレームワークである。
ステージ1は文字認識とマークアップ保存の質を評価し、ステージ2は辞書のエントリセグメンテーションに焦点を合わせ、その後、SILのMulti-Dictionary Formatterである機械可読レキソグラフィースキーマにマッピングする。
また,多彩な記述システム,言語家族,フォーマットを特徴とする30のパブリックドメイン辞書から収集した,人手による辞書エントリからなるデータセットもリリースした。
我々は、OCRシステム、LLM(General-purpose Large Language Model)、VLM(Vision Language Models)をデータセット上でベンチマークし、両方の段階において、ほとんどの記述システムや言語でLLMの優れた性能を示し、より困難なシナリオにおいて結果を改善するための実践的なガイドラインを提供する。
最後に,辞書導入などの追加情報をLCMに付加することで,デジタル辞書の品質を向上できることを示す。
Github:https://github.com/DavidSamuell/MUDIDI-Pipeline-for-Digitization-of-Multilingual-Dictionary/
関連論文リスト
- SwissGov-RSD: A Human-annotated, Cross-lingual Benchmark for Token-level Recognition of Semantic Differences Between Related Documents [38.797311337915175]
SwissGov-RSDは、意味的差分認識のための最初の自然な文書レベルの言語間データセットである。
英語・ドイツ語・英語・フランス語・英語・イタリア語の複数のパラレル文書が合計224件含まれている。
この新しいベンチマークでは,各種オープンソースおよびクローズドソースの大規模言語モデルと,さまざまな微調整設定のエンコーダモデルを評価した。
論文 参考訳(メタデータ) (2025-12-08T13:17:27Z) - DIVERS-Bench: Evaluating Language Identification Across Domain Shifts and Code-Switching [8.14614722074297]
言語識別(Language Identification、LID)は多言語NLPにおける中核的なタスクである。
本研究はDIVERS-BENCHを導入し,多分野にわたる最先端のLIDモデルの包括的評価を行った。
これらの結果から, モデルが評価されたデータセットに対して高い精度を達成する一方で, ノイズや非公式な入力に対して, 性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-09-22T13:32:31Z) - Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。
本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。
本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-02T14:51:20Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Dict-NMT: Bilingual Dictionary based NMT for Extremely Low Resource
Languages [1.8787713898828164]
本稿では,辞書の品質,学習データセットのサイズ,言語家族などの影響を詳細に分析する。
複数の低リソーステスト言語で得られた結果は、ベースラインよりもバイリンガル辞書ベースの方法の明確な利点を示している。
論文 参考訳(メタデータ) (2022-06-09T12:03:29Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。