論文の概要: moBERTo: A Modern Encoder for Portuguese via Continued Pretraining of ModernBERT
- arxiv url: http://arxiv.org/abs/2606.22722v1
- Date: Sun, 21 Jun 2026 23:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 05:06:33.006433
- Title: moBERTo: A Modern Encoder for Portuguese via Continued Pretraining of ModernBERT
- Title(参考訳): moBERTo: ModernBERTの継続事前トレーニングによるポルトガル語のモダンエンコーダ
- Authors: Thiago Laitz, Thales Sales Almeida, João Guilherme Alves Santos, Giovana Kerche Bonás,
- Abstract要約: moBERToは、600億のトークンの事前トレーニングを通じて得られた、ModernBERTのポルトガル適応である。
我々は,回転位置埋め込み,局所的注目の交互化,フラッシュアテンション,アンポーディングなど,オリジナルのアーキテクチャを保存している。
ポルトガル語のトークンライザとサブワードマッチングの埋め込み転送と長文のポストトレーニングを組み合わせることで,nDCG@10の最高ランク付けを実現しています。
- 参考スコア(独自算出の注目度): 4.563830993050022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-only transformer models remain essential for production NLP pipelines. We introduce moBERTo, a Portuguese adaptation of ModernBERT obtained through continued pretraining of the ModernBERT-base checkpoint on 60 billion tokens (5 epochs over a 12-billion-token corpus curated from FineWeb2 and filtered with educational and STEM classifiers). We preserve the original architecture, including rotary positional embeddings, alternating local-global attention, flash attention, and unpadding. We evaluate moBERTo across information retrieval (including long-context retrieval at up to 8,192 tokens), document classification, named entity recognition, and natural language understanding. Our best variant, which combines a Portuguese tokenizer with subword-matching embedding transfer and long-context post-training, achieves the highest average reranking nDCG@10 across three Portuguese retrieval benchmarks and the best results on PLUE-PT. Through ablation studies, we show that (i) continued pretraining is strongly preferable to training from scratch, particularly for preserving long-context capabilities; (ii) tokenizer adaptation improves token-level tasks but degrades long-context retrieval; (iii) a dedicated long-context post-training phase at 8,192 tokens further improves reranking and NER; and (iv) encoder-only architectures remain competitive with larger decoder-only alternatives for discriminative tasks. We publicly release the model weights at https://huggingface.co/Tropic-AI/moBERTo and training data at https://huggingface.co/datasets/Tropic-AI/moberto-pretraining-dataset-c4-compatible on Hugging Face.
- Abstract(参考訳): エンコーダのみのトランスモデルは、NLPパイプラインの生産に必須である。
本報告では,600億トークンに対するModernBERTベースチェックポイントの継続事前トレーニング(FineWeb2からキュレートされた12億トークンコーパス上の5エポック)を通じて得られたModernBERTのポルトガル語適応であるmoBERToを紹介する。
我々は,回転位置埋め込み,局所的注目の交互化,フラッシュアテンション,アンポーディングなど,オリジナルのアーキテクチャを保存している。
情報検索(8,192トークンの長文検索を含む)、文書分類、名前付きエンティティ認識、自然言語理解などについてmoBERToを評価した。
ポルトガルのトークンマイザとサブワードマッチングの埋め込み転送と長文のポストトレーニングを組み合わせることで,ポルトガルの3つの検索ベンチマークにおいて,nDCG@10の平均的な再ランクとPLUE-PTの最良の結果が得られる。
アブレーション研究を通して
(i) 継続事前訓練は、特に長期学習能力の維持において、スクラッチからの訓練に強く好まれる。
(ii)トークン化処理はトークンレベルのタスクを改善するが、長文検索を劣化させる。
(iii)8,192トークンの専用長文後訓練フェーズは、さらに階位とNERを改善し、
(iv) エンコーダのみのアーキテクチャは、識別タスクのためのより大きなデコーダのみの代替と競合するままである。
モデルウェイトはhttps://huggingface.co/Tropic-AI/moBERToで、トレーニングデータはhttps://huggingface.co/datasets/Tropic-AI/moberto-pretraining-dataset-c4互換である。
関連論文リスト
- TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish [0.7233065479782755]
TabiBERTはModernBERTアーキテクチャをベースとしたモノリンガルのトルコ語エンコーダである。
8,192トークンのコンテキスト長(16xオリジナルBERT)をサポートし、最大2.65倍のスピードアップを実現し、GPUメモリ使用量を削減する。
タビベンチで77.58を獲得し、BERTurkを1.62ポイント上回り、8つのカテゴリーのうち5つの最先端技術を確立した。
論文 参考訳(メタデータ) (2025-12-28T20:18:22Z) - SpidR-Adapt: A Universal Speech Representation Model for Few-Shot Adaptation [40.55805997909858]
最小限のラベル付きデータを用いた新しい言語への迅速な適応のためのSpedR-Adaptを提案する。
両レベル最適化フレームワークとして適応処理を定式化するマルチタスク適応型事前学習プロトコルを構築した。
経験的に、SpedR-Adaptは音韻識別性と音声言語モデリングの急速な進歩を実現している。
論文 参考訳(メタデータ) (2025-12-24T14:33:16Z) - llm-jp-modernbert: A ModernBERT Model Trained on a Large-Scale Japanese Corpus with Long Context Length [1.5857828218932415]
本報告では,8192トークンの大規模コーパスをトレーニングしたModernBERTモデルであるllm-jp- Modernbertについて述べる。
我々のモデルは下流タスクの既存のベースラインを超えていないが、満杯テスト評価において良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-22T02:45:19Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。