論文の概要: Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish
- arxiv url: http://arxiv.org/abs/2606.18717v1
- Date: Wed, 17 Jun 2026 05:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:51.026535
- Title: Morpheus: A Morphology-Aware Neural Tokenizer and Word Embedder for Turkish
- Title(参考訳): Morpheus: トルコ語用形態認識型ニューラルトケナイザーと単語埋め込み器
- Authors: Tolga Şakar,
- Abstract要約: 本稿では,トルコのニューラルな形態素境界モデルである textbfMorpheus について述べる。
微分可能なポアソン二項動的プログラムは、キャラクタごとの境界確率をソフトなモルデムのメンバーシップに変える。
Morpheusは1文字あたり最低のビット(1文字あたり1.425ドル)を獲得し、サブワードファミリーの金の形態的アライメントをほぼ2倍にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Turkish is agglutinative: meaning is carried by morphemes, yet the subword tokenizers that drive modern language models split words by corpus statistics, fragmenting semantically loaded suffixes and -- in the case of WordPiece and rule-based analyzers -- failing to decode their output back to the original text. This paper presents \textbf{Morpheus}, a neural morpheme-boundary model for Turkish that is at once a lossless, morphology-aware tokenizer and a word-embedding producer. A differentiable Poisson-binomial dynamic program turns per-character boundary probabilities into soft morpheme memberships during training and exact segments at inference, with no string normalization, so $\mathrm{decode}(\mathrm{encode}(w)) = w$ holds by construction. Because the model is neural, the same forward pass that tokenizes also emits a structured word embedding. Among reversible tokenizers -- the only ones valid for generation -- Morpheus attains the lowest bits-per-character ($1.425$), roughly doubles the gold morphological alignment of the subword family (MorphScore macro-F1 $0.61$ vs.\ ${\sim}0.32$), and uses ${\sim}19\%$ less GPU memory than 64K-vocabulary subword tokenizers. As an embedder, frozen Morpheus vectors lead on lexical retrieval (root-family MAP $0.85$) and same-root verification (ROC-AUC $1.00$), surpassing the multilingual retriever BGE-M3 and BERTurk; on context- and inflection-dependent tasks (NER, case/number probing) the heavier contextual encoders remain ahead -- a trade-off we attribute to Morpheus's root-centric geometry. Code: https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo.
- Abstract(参考訳): トルコ語は凝集的であり、意味はモルヒムによって運ばれるが、現代言語モデルを動かすサブワードトークンーはコーパス統計によって単語を分割し、セマンティックにロードされた接尾辞を断片化し、WordPieceやルールベースのアナライザの場合、元のテキストに出力を復号できない。
本稿では,トルコのニューラルな形態素境界モデルである「textbf{Morpheus}」について述べる。
微分可能なポアソン・双項動的プログラムは、訓練中に各キャラクタの境界確率を、文字列正規化を伴わずに、推論時に厳密なセグメントをソフトなモルフィムメンバシップに変えるので、$\mathrm{decode}(\mathrm{encode}(w)) = w$ は構成によって保持される。
モデルがニューラルであるため、トークン化するのと同じフォワードパスも構造化された単語の埋め込みを出力する。
可逆トークン化器(生成に有効な唯一のもの)の中で、Morpheusは1文字あたりの最低ビット数(1.425ドル)を達成し、サブワードファミリー(MorphScore macro-F1 $0.61$ vs.)のゴールドモルフォロジーアライメントをほぼ2倍にする。
${\sim}0.32$)と${\sim}19\%$のGPUメモリは、64K語彙のサブワードトークンよりも少ない。
埋め込みとして、凍結したMorpheusベクトルは語彙検索(root- Family MAP $0.85$)と同根検証(ROC-AUC $1.00$)につながり、多言語レトリバーBGE-M3とBERTurkを上回る。
コード:https://github.com/lonewolf-rd/TurkishMorpheus; model: https://huggingface.co/lonewolflab/Morpheus-TR-50K; Interactive demo: https://huggingface.co/spaces/lonewolflab/morpheus-tr-demo
関連論文リスト
- MoVoC: Morphology-Aware Subword Construction for Geez Script Languages [7.7761618950496265]
サブワードベースのトークン化法は、しばしば形態的境界を維持するのに失敗する。
我々はMoVoC(Morpheme-aware Subword Vocabulary Construction)とMoVoC-Tokをトレーニングする。
論文 参考訳(メタデータ) (2025-09-10T17:45:10Z) - MorphBPE: A Morpho-Aware Tokenizer Bridging Linguistic Complexity for Efficient LLM Training Across Morphologies [0.8029049649310211]
トークン化は自然言語処理(NLP)の基本である
MorphBPEはByte Pairのモルフォロジーを意識した拡張である。
統計的効率を保ちながら、言語構造をサブワードトークン化に統合する。
論文 参考訳(メタデータ) (2025-02-02T20:06:39Z) - The Role of $n$-gram Smoothing in the Age of Neural Networks [60.23726773548038]
本稿では,ニューラルネットワークモデルの時代において,古典的な$n$-gram平滑化技術が果たす役割を再オープン化する。
我々は,任意の$n$-gram平滑化手法をニューラルネットワークモデルと互換性のある正規化器に変換するためのフレームワークを導出する。
論文 参考訳(メタデータ) (2024-03-25T22:42:19Z) - Infini-gram: Scaling Unbounded n-gram Language Models to a Trillion Tokens [138.36729703589512]
神経大言語モデル(LLM)の時代には,$n$-gramの言語モデルがいまだに関係していることを示す。
これは、2つの側面で$n$-gramのLMを近代化することで実現された。まず、ニューラルネットワークLLMと同じデータスケールでトレーニングする -- 5兆トークン。
次に、既存の$n$-gram LMは、そのパフォーマンスを妨げる小さな$n$を使用します。
論文 参考訳(メタデータ) (2024-01-30T19:03:49Z) - Nonparametric Masked Language Modeling [113.71921977520864]
既存の言語モデル(LM)は、有限語彙上のソフトマックスでトークンを予測する。
NPMは,このソフトマックスを参照コーパス内の各フレーズの非パラメトリック分布に置き換える最初の非パラメトリックマスク付き言語モデルである。
NPMは、コントラスト目的と全コーパス検索に対するバッチ内近似で効率的に訓練することができる。
論文 参考訳(メタデータ) (2022-12-02T18:10:42Z) - Categorical Representation Learning: Morphism is All You Need [0.0]
分類表現学習のための構築と「$textitcategorifier$」の基礎について紹介する。
データセット内のすべてのオブジェクト$mathcals$は$textitencoding map$ $e: mathcalobj(mathcals)tomathbbrn$によって$mathbbrn$のベクトルとして表現できる。
概念実証として,我々の技術を搭載したテキスト翻訳者の例を示し,分類的学習モデルがそれを上回ることを示す。
論文 参考訳(メタデータ) (2021-03-26T23:47:15Z) - Pruned Wasserstein Index Generation Model and wigpy Package [0.0]
本稿では,WIGモデルに適合する前処理ステップとして,語彙の次元性を低減するためのラッソに基づく縮小法を提案する。
両方のフレーバーで計算を実行するために、Pythonのtextitwigpyモジュールも提供しています。
論文 参考訳(メタデータ) (2020-03-30T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。