論文の概要: MorfFlex: Handling Rich Morphology
- arxiv url: http://arxiv.org/abs/2606.24366v1
- Date: Tue, 23 Jun 2026 09:56:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.894261
- Title: MorfFlex: Handling Rich Morphology
- Title(参考訳): MorfFlex: リッチなモルフォロジーを扱う
- Authors: Jaroslava Hlaváčová, Marie Mikulová, Barbora Štěpánková, Milan Straka, Jan Hajič,
- Abstract要約: インフレクションと導出の両方において広範囲な規則性を持つ言語に適した形態素辞書アーキテクチャであるMorfFlexを提案する。
MorfFlex の主な例として,チェコ語の形態学辞書 MorfFlex CZ を紹介する。
ワードフォーム, lemma, tag>三重項の単純で構造化されていないリストとして配布されるが、手動でメンテナンスされ、未公開のソースファイルと変換スクリプトは、屈折パターンと導出パターンの洗練されたシステムをエンコードする。
- 参考スコア(独自算出の注目度): 1.4766181043669164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present MorfFlex, a morphological dictionary architecture suitable for languages with extensive regularity in both inflection and derivation. As the primary example of MorfFlex in use we introduce MorfFlex CZ, a morphological dictionary of Czech. It is distributed as a simple, unstructured list of <wordform, lemma, tag> triplets, however, its manually maintained, unpublished source files and conversion scripts encode a sophisticated system of inflectional and derivational patterns. These patterns dramatically reduce the otherwise enormous size of the dictionary, which currently contains over 100 million wordforms and more than 1 million lemmas. The MorfFlex CZ dictionary serves as an essential resource for ensuring the consistency of manual morphological annotation in the Prague Dependency Treebanks and underpins state-of-the-art automatic tools such as MorphoDiTa. In this paper, we focus on: (i) presenting an effective method for managing the rich morphological system within the dictionary, and (ii) demonstrating the utility of such a language resource for maintaining annotation consistency in corpora and supporting the development of advanced NLP applications.
- Abstract(参考訳): インフレクションと導出の両方において広範囲な規則性を持つ言語に適した形態素辞書アーキテクチャであるMorfFlexを提案する。
MorfFlex の主な例として,チェコ語の形態学辞書 MorfFlex CZ を紹介する。
単純で構造化されていない<wordform, lemma, tag>三つ子のリストとして配布されるが、手動でメンテナンスされ、未公開のソースファイルと変換スクリプトは、屈折パターンと導出パターンの洗練されたシステムをエンコードする。
これらのパターンは、現在1億以上のワードフォームと100万以上のレムマを含む辞書の巨大さを劇的に減少させています。
MorfFlex CZ辞書は、Prag Dependency Treebanksにおける手動の形態的アノテーションの一貫性を保証するための必須リソースとして機能し、MorphoDiTaのような最先端の自動ツールを支える。
本稿では,以下の点に焦点をあてる。
一 辞書内の豊富な形態体系を管理するための効果的な方法の提示及び
(2) コーパスにおけるアノテーションの整合性を維持し, 高度なNLPアプリケーションの開発を支援するための言語資源の有用性を実証する。
関連論文リスト
- LGSE: Lexically Grounded Subword Embedding Initialization for Low-Resource Language Adaptation [7.623227616015147]
本稿では,新しいトークンの埋め込みを初期化するための形態的情報セグメント化を導入したLexically Grounded Subword Embedding Initializationフレームワークを提案する。
ランダムなベクトルや任意のサブワードを使う代わりに、LGSEは単語を構成形態素に分解し、意味的に一貫性のある埋め込みを構成する。
質問応答、名前付きエンティティ認識、テキスト分類の3つのNLPタスクにおいて、LGSEを2つの形態的にリッチで低リソースな言語で評価する。
論文 参考訳(メタデータ) (2026-03-23T23:07:16Z) - MoVoC: Morphology-Aware Subword Construction for Geez Script Languages [7.7761618950496265]
サブワードベースのトークン化法は、しばしば形態的境界を維持するのに失敗する。
我々はMoVoC(Morpheme-aware Subword Vocabulary Construction)とMoVoC-Tokをトレーニングする。
論文 参考訳(メタデータ) (2025-09-10T17:45:10Z) - Unsupervised Morphological Tree Tokenizer [36.584680344291556]
トークン化のための形態的構造ガイダンスを導入し、単語の文字レベル構造を誘導する深層モデルを提案する。
本手法は,アノテート学習データなしで形態素規則に整合した文字レベルの構造を誘導することができる。
実験の結果,提案手法は完全形態素を効果的に保持し,BPEやWordPieceといった広く採用されている手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T15:35:49Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。