論文の概要: AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages
- arxiv url: http://arxiv.org/abs/2606.12708v1
- Date: Wed, 10 Jun 2026 21:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.477659
- Title: AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages
- Title(参考訳): AfriSUD: アフリカの言語でモデルを評価するための依存性ツリーバンクコレクション
- Authors: Happy Buzaaba, Cheikh Mouhamadou Bamba Dione, David Ifeoluwa Adelani, Sylvain Kahane, Kim Gerdes, Bruno Guillaume, Kevin Guan, Aremu Anuoluwapo, Naome A. Etori, Shamsuddeen Hassan Muhammad, Utitofon Inyang, Peter Nabende, David Sabiiti Bamutura, Andiswa Bukula, Chinedu Uchechukwu, Rooweither Mabuya, Idris Akinade, Christiane Fellbaum,
- Abstract要約: AfriSUDは9つのアフリカの言語のための構文的に注釈付けされた木バンクの大規模なコレクションである。
本稿では,AfriSUDにおける音声のタグ付けと依存性解析のためのモデルについて検討する。
- 参考スコア(独自算出の注目度): 9.958060369042538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite their linguistic diversity and global significance, African languages remain underrepresented in research and resources to support NLP. We aim to bridge this gap by introducing AfriSUD, the first large-scale collection of syntactically annotated treebanks for nine diverse African languages spanning major language families and regions across Sub-Saharan Africa. Using the Surface-Syntactic Universal Dependencies (SUD) framework, our community-led effort provides high-quality, native-speaker verified data that capture typological key features such as agglutination and tone. We evaluate a range of models on AfriSUD for part-of-speech tagging and dependency parsing including non-transformer baselines, multilingual pretrained encoders, and LLMs. Our results reveal a significant syntax gap, where models still show clear limitations across the nine languages, suggesting that existing architectures may not fully capture the structural diversity of African-language syntax.
- Abstract(参考訳): 言語的多様性と世界的重要性にもかかわらず、アフリカ諸言語はNLPをサポートするための研究や資源に乏しいままである。
AfriSUDは,サハラ以南のアフリカ各地に分布する9つのアフリカ諸語を対象とした,構文的に注釈付けされた木バンクの大規模なコレクションである。
コミュニティ主導の取り組みは、Surface-Syntactic Universal Dependencies (SUD)フレームワークを使用して、凝集やトーンといったタイプ的重要な特徴をキャプチャする高品質でネイティブな話者検証データを提供します。
我々は,非トランスフォーマーベースライン,多言語事前学習エンコーダ,LLMを含む部分音声タグ付けおよび依存性解析のためのAfriSUDのモデルについて検討した。
この結果から,既存アーキテクチャがアフリカ語構文の構造的多様性を完全に捉えていない可能性が示唆された。
関連論文リスト
- AfroScope: A Framework for Studying the Linguistic Landscape of Africa [27.262469904340836]
AfroScope-Data や AfroScope-Models など,アフリカの LID 統合フレームワークである AfroScope を紹介する。
地理的に近縁な29の言語を対象とする特殊な埋め込みモデルであるMirror-Serengetiを活用する階層型分類手法を提案する。
我々は言語間移動とドメイン効果を分析し、アフリカにおける堅牢なLIDシステム構築のためのガイダンスを提供する。
論文 参考訳(メタデータ) (2026-01-19T19:30:35Z) - Mafoko: Structuring and Building Open Multilingual Terminologies for South African NLP [3.0720023574418622]
本稿では,アフリカ中心のNOODLフレームワークを用いて,基礎となるMafokoデータセットについて紹介する。
実験では、英語からツシヴェンダ語への機械翻訳の精度とドメイン固有の一貫性が大幅に向上した。
論文 参考訳(メタデータ) (2025-08-05T15:00:02Z) - Natural language processing for African languages [7.884789325654572]
論文はサハラ以南のアフリカで話される言語に焦点を合わせ、すべての先住民語を低資源と見なすことができる。
単語埋め込みで学習した意味表現の質は、データ量だけでなく、事前学習データの品質にも依存することを示す。
そこで我々は,21のアフリカ言語を対象とした大規模人間アノテーション付きラベル付きデータセットを2つのインパクトのあるNLPタスクで開発する。
論文 参考訳(メタデータ) (2025-06-30T22:26:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - AfroBench: How Good are Large Language Models on African Languages? [55.35674466745322]
AfroBenchは、64のアフリカ言語にわたるLLMのパフォーマンスを評価するためのベンチマークである。
AfroBenchは9つの自然言語理解データセット、6つのテキスト生成データセット、6つの知識と質問応答タスク、1つの数学的推論タスクで構成される。
論文 参考訳(メタデータ) (2023-11-14T08:10:14Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Low-Resource Language Modelling of South African Languages [6.805575417034369]
南アフリカの低資源言語におけるボカブラリ言語モデルの性能を評価する。
本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの異種を小規模データセット上で評価する。
全体的に、よく規則化されたRNNは、2つのisiZuluと1つのSepediデータセットで最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T21:27:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。