論文の概要: Koshur Diacritizer: A Byte-Level Sequence-to-Sequence Model for Kashmiri Diacritic Restoration
- arxiv url: http://arxiv.org/abs/2606.15883v2
- Date: Tue, 16 Jun 2026 04:28:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 15:01:46.809738
- Title: Koshur Diacritizer: A Byte-Level Sequence-to-Sequence Model for Kashmiri Diacritic Restoration
- Title(参考訳): Koshur Diacritizer: Kashmiri Diacritic RestorationのためのByte-Level Sequence-to-Sequence Model
- Authors: Haq Nawaz Malik, Nahfid Nissar, Faizan Iqbal,
- Abstract要約: カシュミリ(Kashmiri)は、ペルソ・アラビア文字の修正版で書かれたインド・アラビア語の言語で、しばしばデジタルテキストのダイアクリティカルマークを省略する。
カシュミリ文字でダイアクリティカルな単語を復元するためのシーケンス・ツー・シーケンス・モデルであるKoshur Diacritizerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Kashmiri, an Indo-Aryan language written in a modified Perso-Arabic script, frequently omits diacritic marks in digital text, creating ambiguity and challenging downstream NLP applications. We present Koshur Diacritizer, a ByT5-small byte-level sequence-to-sequence model for restoring diacritics in Kashmiri text. To support this task, we release a publicly available dataset of 23.7k aligned undiacritized diacritized Kashmiri sentence pairs. The proposed framework combines script-aware normalization, alignment validation, and skeleton-preserving inference to ensure reliable restoration while maintaining the original base-letter sequence. Experimental results on a held-out test set achieve a DERm of 0.2012 and a WER of 0.2159. Additionally, evaluation by a native Kashmiri linguistic expert yields a mean accuracy of 77.5%. The dataset, model, and source code are publicly released to provide a reproducible baseline for Kashmiri diacritic restoration and future low-resource language research.
- Abstract(参考訳): カシュミリ(Kashmiri)は、ペルソ・アラビア文字の修正版で書かれたインド・アーリア語で、しばしばデジタルテキストのダイアクリティカルマークを省略し、曖昧さと下流のNLPアプリケーションに挑戦する。
本稿では,Kashmiri テキストでダイアクリプティクスを復元するための,ByT5-small byte-level sequence-to-sequenceモデルであるKoshur Diacritizerを提案する。
このタスクをサポートするために、23.7kの整列した未診断のカシュミリ文ペアを公開しているデータセットをリリースする。
提案フレームワークは,スクリプト認識の正規化,アライメント検証,スケルトン保存推論を組み合わせて,元のベースレターシーケンスを維持しながら信頼性の高い復元を保証する。
ホールドアウトテストセットの実験結果は、DERmが0.2012、WERが0.2159となる。
さらに、カシュミリ語の専門家による評価では、平均精度は77.5%である。
データセット、モデル、ソースコードは、Kashmiriダイアクリティカルな復元と将来の低リソース言語研究のための再現可能なベースラインを提供するために、公開されている。
関連論文リスト
- A Text Recognition Dataset from Sahidic Coptic Ancient Manuscripts [43.31909972506497]
SCAM (Shidic Coptic Ancient Manuscripts) は、絶滅したSahidic Coptic 方言で書かれたデジタル化された古代の写本から構築された新しいラインレベルのデータセットである。
SCAMは、サヒド・コプト(英語版)の資源が不足し、その非共通アルファベット、方言特有のダイアクリティカルティクス(英語版)が不足しているため、言語学的に重大な課題を提起している。
我々は、異なるパラダイムに基づいて、いくつかの最先端のアプローチをベンチマークし、この設定における制限と強みを強調した。
論文 参考訳(メタデータ) (2026-06-14T19:26:42Z) - PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration [3.763275651955603]
自動音声認識出力の可読性とダウンストリーム性を改善するためには,句読解回復が不可欠である。
ペルシャ語句読点復元のための高品質な1700万サンプルデータセットであるペルシャ語句読点(ペルシャ語句読点復元)を紹介した。
我々は,句読取復元をトークンレベルのシーケンスラベリングタスクとファインチューンParsBERTとして定式化し,高い性能を実現する。
論文 参考訳(メタデータ) (2026-03-05T15:55:55Z) - ks-lit-3m: A 3.1 million word kashmiri text dataset for large language model pretraining [0.0]
本稿では,KS-LIT-3Mについて紹介する。KS-LIT-3MはKashmiri上での事前学習用に特別に設計された3100万語(164万文字)のコーパスである。
データセットはCC-BY-4.0ライセンスでリリースされ、Kashmiri自然言語処理の研究を容易にする。
論文 参考訳(メタデータ) (2026-01-03T06:43:26Z) - A Self-Refining Framework for Enhancing ASR Using TTS-Synthesized Data [46.73430446242378]
本稿では,ラベルのないデータセットのみを用いて,ASR性能を向上させる自己精錬フレームワークを提案する。
台湾語マンダリン音声における枠組みの有効性を実証する。
論文 参考訳(メタデータ) (2025-06-10T17:30:32Z) - QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。
OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。
本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-16T11:19:22Z) - Romanized to Native Malayalam Script Transliteration Using an Encoder-Decoder Framework [0.0]
本稿では,ローマ字化マラヤラムを母語文字に変換する逆文字化モデルの開発について述べる。
公開可能なIndic言語トランスリテラクションデータセットから得られた430万のトランスリテラルペアのキュレートと組み合わせたコレクションを使用しました。
論文 参考訳(メタデータ) (2024-12-13T08:33:26Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - A Benchmark and Dataset for Post-OCR text correction in Sanskrit [23.45279030301887]
サンスクリット語は古典言語であり、約3000万の写本がデジタル化に適合している。
我々は,30冊の書籍から約218,000文,150万語を含むOCR後テキスト修正データセットを作成した。
論文 参考訳(メタデータ) (2022-11-15T08:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。