論文の概要: IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources
- arxiv url: http://arxiv.org/abs/2606.20089v1
- Date: Thu, 18 Jun 2026 11:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.81166
- Title: IHUBERT: Vector-Based Semantic Deduplication and Domain-Balanced Pretraining for Persian Resources
- Title(参考訳): IHUBERT: ベクトルに基づく意味的重複とペルシャ資源のためのドメインベース事前訓練
- Authors: Arash Ghafouri, Mahdi Firouzmandi, Hossein Saberi, Mohammad Reza Hasani Ahangar,
- Abstract要約: ペルシアの事前訓練言語モデル(PLM)は、大規模で高品質な事前訓練コーパスの不足により、依然として制限されている。
In this present IHUBERT, a monolingual Persian PLM training with the RoBERTa-base encoder (125M parameters) on a 45 GB curated subset of the Sepahr-Danesh collection。
IHUBERTは、NER、感情分析、トピック分類、NLI、抽出質問応答、関係抽出を含む7つのペルシャのNLUベンチマークで評価される。
- 参考スコア(独自算出の注目度): 1.022165439882148
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Persian pretrained language models (PLMs) are still limited by the scarcity of large-scale, high-quality pretraining corpora and by insufficient evaluation beyond standard classification and NER tasks. We present IHUBERT, a monolingual Persian PLM trained from scratch with the RoBERTa-base encoder (125M parameters) on a 45 GB curated subset of the Sepahr-Danesh collection (about 7-8B tokens). To improve corpus quality and reduce redundancy, we employ a multi-stage preprocessing pipeline that includes normalization, exact and near-duplicate removal, anonymization, and vector-database-based semantic deduplication for distribution balancing control across domains and registers. We additionally train a 139k-vocabulary BPE tokenizer on the full pretraining corpus to better capture Persian morphology and orthographic variation. IHUBERT is evaluated on seven Persian NLU benchmarks covering NER, sentiment analysis, topic classification, NLI, extractive question answering, and relation extraction, using task-standard metrics (entity-level F1, Macro-F1, EM/F1). IHUBERT achieves its strongest gains on extractive QA, ranking first on both PQuAD (F1 88.3542) and ParsiNLU-RC (F1 49.0987), and attains the best result on FarsTail (Macro-F1 0.8350). On NER and topic classification, it remains competitive (e.g., 0.8308 F1 on ParsTwiNER; 0.7953 Macro-F1 on DigiMag), while relation extraction remains the main remaining gap (0.6684 Macro-F1 on PERLEX). A controlled tokenizer ablation on the IHUBERT pretraining corpus shows that BPE yields slightly lower subword fragmentation than WordPiece at matched vocabulary size, supporting our tokenization design. Overall, IHUBERT advances Persian language modeling through semantically curated large-scale pretraining and broad evaluation across both classification and comprehension-oriented tasks.
- Abstract(参考訳): ペルシア語事前訓練言語モデル(PLM)は、大規模で高品質な事前訓練コーパスの不足や、標準分類やNERタスクを超えた評価が不十分なため、依然として制限されている。
In this present IHUBERT, a monolingual Persian PLM training with the RoBERTa-base encoder (125M parameters) on a 45 GB curated subset of the Sepahr-Danesh collection (約7-8B tokens)。
コーパスの品質向上と冗長性の低減のために,ドメインとレジスタ間の分散バランス制御のために,正規化,完全および近接重複除去,匿名化,ベクトルデータベースに基づくセマンティック重複を含む多段階前処理パイプラインを用いる。
さらに,129k語彙のBPEトークンを事前学習コーパス上にトレーニングし,ペルシア語の形態と正書法の変化をより正確に把握する。
IHUBERTは, NER, 感情分析, トピック分類, NLI, 抽出的質問応答, 関係抽出を含む7つのペルシャのNLUベンチマークで, タスク標準指標を用いて評価される(エンティレベルF1, Macro-F1, EM/F1)。
IHUBERTは抽出QAで最強の上昇を達成し、PQuAD (F1 88.3542) とParsiNLU-RC (F1 49.0987) の両方でランキング1位となり、FarsTail (Macro-F1 0.8350) では最高となる。
NERとトピック分類では、ParsTwiNERでは0.8308 F1、DigiMagでは0.7953 Macro-F1、PERLEXでは0.6684 Macro-F1と競合する。
The controlled tokenizer ablation on the IHUBERT pretrainingcorpus shows that BPE yields slightly lower subword fragmentation than WordPiece at matched vocabulary size, supporting our tokenization design。
全体として、IHUBERTは、意味論的にキュレートされた大規模事前学習と、分類と理解指向タスクの両方にわたる幅広い評価を通じてペルシア語モデリングを推進している。
関連論文リスト
- Binary Token-Level Classification with DeBERTa for All-Type MWE Identification: A Lightweight Approach with Linguistic Enhancement [1.8429656136522097]
本稿では,バイナリトークンレベルの分類,言語的特徴の統合,データ拡張を組み合わせた,MWE識別のための包括的アプローチを提案する。
我々のDeBERTa-v3大規模モデルは、CoAMデータセット上で69.8%のF1を達成し、このデータセットで最高の結果(Qwen-72B, 57.8% F1)を12ポイント上回り、パラメータは165倍少ない。
論文 参考訳(メタデータ) (2026-01-27T08:42:54Z) - TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish [0.7233065479782755]
TabiBERTはModernBERTアーキテクチャをベースとしたモノリンガルのトルコ語エンコーダである。
8,192トークンのコンテキスト長(16xオリジナルBERT)をサポートし、最大2.65倍のスピードアップを実現し、GPUメモリ使用量を削減する。
タビベンチで77.58を獲得し、BERTurkを1.62ポイント上回り、8つのカテゴリーのうち5つの最先端技術を確立した。
論文 参考訳(メタデータ) (2025-12-28T20:18:22Z) - Enhancing Burmese News Classification with Kolmogorov-Arnold Network Head Fine-tuning [0.26097841018267615]
この研究はコルモゴロフ・アルノルドネットワーク(KAN)を代替分類として探索する。
Kanは低リソース言語分類のためのトランスフォーマーと競合するか、優れている。
これらの知見は、低リソース言語分類のためのトランスフォーマーの表現的で効率的な代替手段として、Kanが注目されている。
論文 参考訳(メタデータ) (2025-11-26T05:50:34Z) - GeistBERT: Breathing Life into German NLP [0.22099217573031676]
GeistBERTは、多種多様なコーパスで漸進的にトレーニングすることで、ドイツ語処理の改善を目指している。
このモデルはダイナミックマスクと固定シーケンス長512トークンを備えた1.3TBのドイツのコーパスで訓練された。
GermEval 2018の細かなテキスト分類において、ベースモデル間での強い成果、新しい最先端(SOTA)の設定などを実現した。
論文 参考訳(メタデータ) (2025-06-13T15:53:17Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Understanding and Improving Sequence-to-Sequence Pretraining for Neural
Machine Translation [48.50842995206353]
本研究は,Seq2Seqプレトレーニングと従来のエンコーダによるNMTの事前トレーニングとの主な違いである,共同事前学習デコーダの影響について検討する。
我々は、ドメインと目的の相違を緩和するために、ドメイン内の事前訓練と入力適応という、シンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T07:36:28Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Cross-Lingual Speaker Verification with Domain-Balanced Hard Prototype
Mining and Language-Dependent Score Normalization [14.83348592874271]
本稿では,SdSV (Short-duration Speaker Verification) Challenge 2020における最上位のIDLab申請について述べる。
この課題の主な難しさは、潜在的に言語横断の試行の間に様々な音素の重なりがあることである。
我々は,最先端のECAPA-TDNNx-vectorベースの話者埋め込み抽出器を微調整するために,ドメインバランスのよいハードプロトタイプマイニングを導入する。
論文 参考訳(メタデータ) (2020-07-15T13:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。