論文の概要: Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan
- arxiv url: http://arxiv.org/abs/2606.09767v1
- Date: Mon, 08 Jun 2026 17:29:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:07.593551
- Title: Data Synthesis and Parameter-Efficient Fine-Tuning for Low-Resource NMT: A Case Study on Q'eqchi' Mayan
- Title(参考訳): 低リソースNTTのためのデータ合成とパラメータ効率の良い微調整:Q'eqchi' Mayanを事例として
- Authors: Alexander Chulzhanov, Soeren Eberhardt, Arjun Mukherjee,
- Abstract要約: 本研究では,NMTモデルのブートストラップのためのデータ合成手法を提案する。
我々は,コミュニティソース辞書を大規模合成コーパスに変換し,mT5ベースモデル上のLoRAアダプタを介してPEFT(Efficient Fine-Tuning)を利用する。
有機用語集に対する評価は、文法的整合性を維持するが、自然言語の語彙的基盤を欠く構造的意味的ギャップ(BLEU 0.59)を明らかにする。
- 参考スコア(独自算出の注目度): 42.654087108357594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural machine translation for digitally low-resource Indigenous languages is often hindered by extreme data scarcity, prompting reliance on extractive web-scraping. To ensure data sovereignty, this study introduces a data synthesis methodology to bootstrap NMT models without scraping target-language parallel text. Focusing on Q'eqchi' Mayan, we transformed community-sourced dictionaries into a massive synthetic corpus, utilizing Parameter-Efficient Fine-Tuning (PEFT) via LoRA adapters on an mT5-base model. In-domain evaluation demonstrates high structural acquisition (BLEU 42.02), proving that synthetic constraints effectively teach complex agglutinative morphology and VOS word order. However, evaluation against an organic glossary reveals a structural-semantic gap (BLEU 0.59), where the model maintains grammatical integrity but lacks the lexical grounding of natural language. The model exhibits overfitting to the constrained structural variance of the synthetic templates; despite high semantic entropy in the pipeline, it struggles with the syntactic fluidity of natural language, forcing organic inputs into rigid learned patterns. Furthermore, an ablation study utilizing a Multi-Task Learning architecture resulted in negative transfer, suggesting that auxiliary tasks competed for limited parameter capacity within the LoRA adapters, causing over-optimization for synthetic markers at the expense of organic flexibility. Ultimately, we establish that synthetic bootstrapping is a highly effective structural primer, but requires authentic data for semantic refinement via Curriculum Learning.
- Abstract(参考訳): デジタル的に低リソースの内在言語に対するニューラルマシン翻訳は、しばしば極端なデータ不足によって妨げられ、抽出ウェブスクレイピングに依存する。
そこで本研究では,NMTモデルのブートストラップにデータ合成手法を導入する。
我々はQ'eqchi' Mayanに着目し、mT5ベースモデル上のLoRAアダプタを介してパラメータ効率の良いファインチューニング(PEFT)を利用して、コミュニティソース辞書を巨大な合成コーパスに変換する。
ドメイン内評価は高い構造的獲得(BLEU 42.02)を示し、合成制約が複雑な凝集形態とVOS単語順序を効果的に教えていることを証明する。
しかしながら、有機用語集に対する評価は、文法的整合性を維持しつつも、自然言語の語彙的基礎を欠いている構造的意味的ギャップ(BLEU 0.59)を明らかにする。
このモデルは、合成テンプレートの構造的分散に過度に適合しており、パイプラインのセマンティックエントロピーが高いにもかかわらず、自然言語の構文的流動性に苦しむため、有機入力を厳密な学習パターンに強制する。
さらに,マルチタスク学習アーキテクチャを用いたアブレーション研究により,LoRAアダプタ内でのパラメータ容量の制限に係わる補助的なタスクが,有機的柔軟性を犠牲にして合成マーカーの過度な最適化を引き起こしたことが示唆された。
最終的に、合成ブートストラップは、非常に効果的な構造プライマーであるが、カリキュラム学習によるセマンティックリファインメントのための認証データが必要であることを確かめる。
関連論文リスト
- Explicit Grammar Semantic Feature Fusion for Robust Text Classification [0.0]
自然言語処理により、コンピュータはテキストを効率的に分析し分類することで人間の言語を理解することができる。
既存のモデルは、計算集約的で資源制約のある環境に適さないトランスフォーマーモデルで大きなコーパスから学習することで特徴を捉えている。
本研究は,意味情報とともに包括的文法規則を取り入れて,頑健で軽量な分類モデルを構築することを目的とする。
論文 参考訳(メタデータ) (2026-02-24T10:25:29Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Understanding Synthetic Context Extension via Retrieval Heads [51.8869530817334]
本稿では,検索と推論を必要とする3つの長文タスクに対する合成データの微調整について検討する。
合成データに基づいてトレーニングされたモデルは、実際のデータには及ばないが、驚くべきことに、ミスマッチを解釈できる。
我々の結果は、合成データの微調整性能の解釈方法と、長期にわたる実世界の能力学習のためのより良いデータ作成方法に光を当てた。
論文 参考訳(メタデータ) (2024-10-29T17:55:00Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - Synthetic Pre-Training Tasks for Neural Machine Translation [16.6378815054841]
我々のゴールは、合成資源を使用する場合の事前学習モデルの有効性に寄与する要因を理解することである。
本稿では,語彙的および構造的知識のレベルが異なる事前学習型翻訳モデルを提案する。
複数の言語ペアに対する実験により,高レベルの難読化や純粋に合成された並列データであっても,事前学習のメリットが実現できることが明らかになった。
論文 参考訳(メタデータ) (2022-12-19T21:34:00Z) - Alternated Training with Synthetic and Authentic Data for Neural Machine
Translation [49.35605028467887]
ニューラルマシン翻訳(NMT)のための合成および認証データを用いた交互トレーニングを提案する。
従来の研究と比較して,ノイズの多い合成データによってNMTモデルのトレーニングが妨げられるのを防止するためのガイダンスとして,認証データを導入している。
中国語・ドイツ語・英語の翻訳タスクの実験は、我々のアプローチがいくつかの強いベースラインにまたがって性能を向上させることを示している。
論文 参考訳(メタデータ) (2021-06-16T07:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。