論文の概要: QuechuaTok: Morphological Boundary Accuracy as a Necessary Metric for Tokenizer Evaluation in Agglutinative Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2606.23943v1
- Date: Mon, 22 Jun 2026 21:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.69095
- Title: QuechuaTok: Morphological Boundary Accuracy as a Necessary Metric for Tokenizer Evaluation in Agglutinative Low-Resource Languages
- Title(参考訳): QuechuaTok:Agglutinative Low-Resource Languagesにおけるトケナイザ評価に必要な形態的境界精度
- Authors: Maria Contreras,
- Abstract要約: トークン化はNLPパイプラインの基本的なステップであるが、受精率などの標準的な評価指標では、凝集性言語の形態的正しさを捉えることができない。
南アメリカの8~10万人が話していた低リソースの凝集言語であるSouthern Quechua(quz)の4つのトークン化戦略を比較したベンチマークを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is a foundational step in NLP pipelines, yet standard evaluation metrics such as fertility rate fail to capture morphological correctness for agglutinative languages. We present QuechuaTok, a systematic benchmark comparing four tokenization strategies - BPE, Unigram LM, WordPiece, and a morphology-aware PRPE tokenizer - for Southern Quechua (quz), a low-resource agglutinative language spoken by 8-10 million people in South America. Using a 200k-sentence corpus and the SQUOIA finite-state morphological analyzer (Rios, 2016) as silver standard, we evaluate three metrics: fertility rate, OOV rate, and morphological boundary accuracy (MorphAcc). Our results show that BPE achieves the lowest fertility rate (1.636 at 16k vocab) by memorizing surface word forms, while achieving only 6.67% MorphAcc. PRPE achieves 83.33% MorphAcc - the highest of all systems - demonstrating that fertility rate alone is insufficient to evaluate tokenizers for agglutinative languages. All code and models are publicly available at kaggle.com/code/macmaky/quechuatok
- Abstract(参考訳): トークン化はNLPパイプラインの基本的なステップであるが、受精率などの標準的な評価指標では、凝集性言語の形態的正しさを捉えることができない。
南ケチュア (quz) の4つのトークン化戦略(BPE, Unigram LM, WordPiece, およびモルフォロジーを意識したPRPEトークン化手法)を比較した体系的ベンチマークである QuechuaTok について述べる。
また,200k文コーパスとSQUOIA有限状態解析器 (Rios, 2016) を銀標準として, 受精率, OOV速度, モルフォロジー境界精度 (MorphAcc) の3指標を評価した。
以上の結果から,BPEは6.67%のMorphAccを保ちながら,表面の単語を記憶することで,最低出生率 (1.636 at 16k vocab) を達成した。
PRPEは83.33%のMorphAcc(全システムの中で最も高い)を達成し、受精率だけでは凝集性言語のトークン化剤を評価するには不十分であることを示した。
すべてのコードとモデルはkaggle.com/code/macmaky/quechuatokで公開されている
関連論文リスト
- Context-Aware Distillation and Ablation for Text2DSL [78.29352305480285]
我々は、コンテクスト対応蒸留により、プロンプトのみの合成生成を置き換える。
教師の大きな言語モデルは、明示的に定義された構造化コンテキストの下で機能する。
これは、検証されたポルキットベンチコーパスを4,204対から10,073対にスケールする。
論文 参考訳(メタデータ) (2026-06-21T16:27:24Z) - Benchmarking Speech-to-Speech Translation Models [55.00303727199927]
音声音声翻訳(S2ST)は急速に進歩しているが、オフライン評価には統一されたプロトコルが欠けている。
8次元にわたる46のメトリクスを統合するベンチマークフレームワークを導入する。
FLEURSとCVSSから1,248のモデル言語構成でデプロイする。
論文 参考訳(メタデータ) (2026-06-02T07:01:33Z) - Multilingual Embedding Probes Fail to Generalize Across Learner Corpora [0.17188280334580197]
我々は,9つのコーパスと7つの言語にわたる学習者テキストからCEFR習熟度を予測するために,隠れ状態のアクティベーションに関するプローブを訓練する。
分布評価では、プローブは強い性能を達成し、表面ベースラインを大幅に上回る。
クロスコーパス評価では、全てのプローブタイプとモデルサイズで性能が崩壊する。
これらの結果から,現在の多言語埋め込みは言語一般の習熟度を直接符号化するものではないことが示唆された。
論文 参考訳(メタデータ) (2026-04-08T13:47:54Z) - Tokenization and Morphological Fidelity in Uralic NLP: A Cross-Lingual Evaluation [9.23725598061561]
本研究は3つのサブワードパラダイムであるByte Pairを体系的に比較する。
BPE(Overlap BPE)、OBPE(Overlap BPE)、Unigram Language Model(Unigram Language Model)。
OBPEは従来手法よりも強い形態的アライメントとタグ付け精度を実現する。
論文 参考訳(メタデータ) (2026-02-04T05:59:25Z) - SampoNLP: A Self-Referential Toolkit for Morphological Analysis of Subword Tokenizers [0.0]
形態素レキシコン生成のためのコーパスフリーツールキットであるSampoNLPを紹介する。
フィンランド,ハンガリー,エストニアのSampoNLPが生成する高純度レキシコンを用いて,BPEトークンの系統的評価を行う。
モーフィムカバレッジとオーバースプリッティングのトレードオフをナビゲートする統合されたメトリクス、IPS(Integrated Performance Score)を提案する。
論文 参考訳(メタデータ) (2026-01-08T01:05:51Z) - Low-Resource English-Tigrinya MT: Leveraging Multilingual Models, Custom Tokenizers, and Clean Evaluation Benchmarks [6.177998679139308]
ニューラルネットワーク翻訳(NMT)の進歩にもかかわらず、Tigrinyaのような低リソース言語はいまだに保存されていない。
本稿では,多言語事前学習モデルを用いた翻訳学習手法について検討し,形態的に豊かな低リソース言語に対する翻訳品質を向上させる。
論文 参考訳(メタデータ) (2025-09-24T15:02:57Z) - The Token Tax: Systematic Bias in Multilingual Tokenization [0.8820808252713569]
トークン化の非効率性は、形態的に複雑な低リソース言語に構造上の欠点を課す。
出生率(トークン/ワード)が精度を確実に予測できることが示される。
また、推論モデル(DeepSeek, o1)は非推論のピアよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-09-05T20:20:51Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。