論文の概要: L3Cube-MahaPOS: A Marathi Part-of-Speech Tagging Dataset and BERT Models
- arxiv url: http://arxiv.org/abs/2606.24825v1
- Date: Tue, 23 Jun 2026 17:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:49.127866
- Title: L3Cube-MahaPOS: A Marathi Part-of-Speech Tagging Dataset and BERT Models
- Title(参考訳): L3Cube-MahaPOS: Marathi Part-of-Speech Tagging DatasetとBERTモデル
- Authors: Hariom Ingle, Ronit Ghode, Ishwari Gondkar, Jidnyasa Harad, Raviraj Joshi,
- Abstract要約: Part-of-Speech(POS)タグ付けは、機械翻訳、情報抽出、構文解析を支える基礎的なNLPタスクである。
マラティー語は8300万人以上の人々が話しており、世界でもトップ20の言語にランクインしている。
HMM, CRF, BiLSTM, BiLSTM+CharCNN, MuRIL, Marathi 固有の変換器 MahaBERT-v2 にまたがる6つのモデルファミリのデータセットをベンチマークした。
最高のシステムはトークンレベルの精度88.67%、マクロF1は15の評価タグクラスに対して81.67%である。
- 参考スコア(独自算出の注目度): 2.584263027095689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Part-of-Speech (POS) tagging is a foundational NLP task underpinning machine translation, information extraction, and syntactic parsing. Despite Marathi being spoken by over 83 million people and ranking among the top twenty most spoken languages worldwide, it remains severely under-resourced in annotated corpora and standardised evaluation benchmarks. Marathi presents unique challenges for computational modelling owing to its rich morphology, relatively free word order, lack of capitalisation conventions, and pervasive code-mixing with Hindi and English. We introduce L3Cube-MahaPOS, a gold-standard POS tagging dataset for Marathi comprising 32,354 manually annotated sentences drawn from news text. Annotation was performed entirely manually by a team of Marathi-proficient annotators following a 16-tag Universal Dependencies-aligned scheme. A structured preprocessing pipeline covering Unicode normalisation, Devanagari-aware tokenisation, and noise filtering ensures label consistency across all splits. We benchmark the dataset across six model families spanning HMM, CRF, BiLSTM, BiLSTM+CharCNN, MuRIL, and the Marathi-specific transformer MahaBERT-v2. The best system achieves 88.67\% token-level accuracy and a macro-F1 of 81.67% over 15 evaluated tag classes. We release the dataset, annotation guidelines, and trained model checkpoints to foster further research in Marathi NLP.
- Abstract(参考訳): Part-of-Speech(POS)タグ付けは、機械翻訳、情報抽出、構文解析を支える基礎的なNLPタスクである。
Marathiは8300万人以上の人々が話し、世界でもトップ20の言語にランクインしているが、アノテートされたコーポラと標準化された評価ベンチマークでは非常に過小評価されている。
Marathiは、その豊富な形態、比較的自由な語順、資本主義の慣習の欠如、ヒンディー語と英語との広範的なコードミキシングにより、計算モデリングに固有の課題を提示している。
L3Cube-MahaPOSは,ニューステキストから手書きの注釈付き文を32,354行含むマラタイの標準POSタグデータセットである。
16タグのUniversal Dependencies-alignedスキームに従って、Marathi-proficientアノテータチームによって完全に手動でアノテーションが実行された。
Unicode正規化、Devanagari対応トークン化、ノイズフィルタリングを含む構造化前処理パイプラインは、すべての分割でラベルの一貫性を保証する。
HMM, CRF, BiLSTM, BiLSTM+CharCNN, MuRIL, Marathi 固有の変換器 MahaBERT-v2 にまたがる6つのモデルファミリのデータセットをベンチマークした。
最高のシステムはトークンレベルの精度88.67\%、評価された15のタグクラスに対して81.67%のマクロF1を達成する。
Marathi NLPのさらなる研究を促進するために、データセット、アノテーションガイドライン、トレーニングされたモデルチェックポイントをリリースする。
関連論文リスト
- Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - COMI-LINGUA: Expert Annotated Large-Scale Dataset for Multitask NLP in Hindi-English Code-Mixing [1.2242530642524063]
COMI-lingUAは、ヒンディー語と英語のコード混成データセットとしては最大である。
5つのコアNLPタスクにわたる125K以上の高品質なインスタンスで構成されている。
各インスタンスには3つのバイリンガルアノテーションがアノテートされ、376K以上の専門家アノテーションが生成される。
論文 参考訳(メタデータ) (2025-03-27T16:36:39Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - L3Cube-MahaNews: News-based Short Text and Long Document Classification Datasets in Marathi [0.4194295877935868]
L3Cube-MahaNewsは,ニュースの見出しや記事に焦点をあてたマラタイ語テキスト分類コーパスである。
このコーパスは最大規模のマラーティコーパスであり、1.05L以上の記録を12のカテゴリに分類している。
異なる文書の長さに対応するため、MahaNewsは短文、長文、中段落用に特別に設計された3つの教師付きデータセットで構成されている。
論文 参考訳(メタデータ) (2024-04-28T15:20:45Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - L3Cube-MahaCorpus and MahaBERT: Marathi Monolingual Corpus, Marathi BERT
Language Models, and Resources [1.14219428942199]
我々は、L3Cube-MahaCorpusを、異なるインターネットソースから取り除かれたマラタイのモノリンガルデータセットとして提示する。
既存のMarathiモノリンガルコーパスを24.8M文と289Mトークンで拡張する。
下流分類とNERタスクにおけるこれらのリソースの有効性を示す。
論文 参考訳(メタデータ) (2022-02-02T17:35:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。