論文の概要: LangMAP: A Language-Adaptive Approach to Tokenization
- arxiv url: http://arxiv.org/abs/2606.23566v1
- Date: Mon, 22 Jun 2026 16:32:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 16:10:15.214423
- Title: LangMAP: A Language-Adaptive Approach to Tokenization
- Title(参考訳): LangMAP: トークン化への言語適応アプローチ
- Authors: Clara Meister, Suchir Salhan, Andrzej Szablewski, Pietro Lesci, Paula Buttery, Tiago Pimentel,
- Abstract要約: LangMAPは、UnigramLMアルゴリズムを多言語設定に拡張するトークン化スキームである。
マルチ言語モデルをスクラッチからトレーニングしたり、事前訓練されたモデルのトークン化ツールを個別の言語に適応する際にも使用することができる。
言語ラベルはトレーニング時に必要とされているが、アルゴリズムの重要な特徴は、入力言語の知識なしに推論時に言語固有のトークン化を実行することである。
- 参考スコア(独自算出の注目度): 30.443524396044428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-specific tokenizers improve tokenization quality and the downstream performance of models on those languages. However, using such a tokenizer comes at a cost: either a new model must be trained from scratch, or the vocabulary of an existing pretrained model must be adapted. We propose Language-adaptive Maximum a Posteriori (LangMAP) Tokenization, a tokenization scheme that extends the UnigramLM algorithm to the multilingual setting, producing language-specific tokenization from a single shared vocabulary. Notably, LangMAP can be used when training a multilingual language model from scratch or to adapt a pretrained model's tokenizer to individual languages without changing its vocabulary. While language labels are required at training time, a key feature of the algorithm is that it then performs language-specific tokenization at inference without knowledge of the input's language. Across 14 open-source tokenizers, 9 natural languages, and 9 programming languages, LangMAP improves morphological boundary alignment and, for all coding languages tested, alignment with abstract syntax tree (AST) leaf boundaries. In fine-tuning experiments, results are mixed: LangMAP improves target-language grammatical acceptability (MultiBLiMP) on the languages tested; its benefits are less consistent on knowledge-related tasks (Global-PIQA, Belebele).
- Abstract(参考訳): 言語固有のトークン化器は、それらの言語上でのモデルのトークン化品質と下流のパフォーマンスを改善します。
しかし、そのようなトークン化器の使用にはコストがかかる。新しいモデルをスクラッチからトレーニングするか、既存の事前訓練モデルの語彙を適応しなければならない。
We propose Language-adaptive Maximum a Posteriori (LangMAP) Tokenization, a tokenization scheme that the UnigramLM algorithm to the multilingual set, produce language-specific tokenization from a single shared vocabulary。
特に、LangMAPは、多言語言語モデルをスクラッチからトレーニングしたり、事前訓練されたモデルのトークン化子を語彙を変更することなく、個々の言語に適応するために使用することができる。
言語ラベルはトレーニング時に必要とされているが、アルゴリズムの重要な特徴は、入力言語の知識なしに推論時に言語固有のトークン化を実行することである。
14のオープンソーストークンライザ、9つの自然言語、9つのプログラミング言語で、LangMAPは形態的境界アライメントを改善し、テストされたすべてのコーディング言語に対して、抽象構文木(AST)の葉の境界とアライメントする。
LangMAPは、テスト対象言語の文法的受容性(MultiBLiMP)を改善し、その利点は知識関連タスク(Global-PIQA, Belebele)に一貫性がない。
関連論文リスト
- What Language is This? Ask Your Tokenizer [32.28976119949841]
言語識別(LID)は多くの多言語自然言語処理パイプラインの重要なコンポーネントである。
我々は,UnigramLMトークン化アルゴリズムに基づくシンプルで効率的なLID手法UniLIDを紹介する。
我々の定式化は、データと計算効率が良く、既存のモデルを再訓練することなく、新しい言語の漸進的な追加をサポートしています。
論文 参考訳(メタデータ) (2026-02-19T18:58:39Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。