論文の概要: Automatic Part-of-Speech Tagging of Arabic-English Dictionary Senses through WordNet
- arxiv url: http://arxiv.org/abs/2606.24359v1
- Date: Tue, 23 Jun 2026 09:49:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.865168
- Title: Automatic Part-of-Speech Tagging of Arabic-English Dictionary Senses through WordNet
- Title(参考訳): WordNetによるアラビア語辞書の自動音声タグ作成
- Authors: Diaa M. Fayed, Aly A. Fahmy, Mohsen A. Rashwan, Wafaa K. Fayed,
- Abstract要約: 本稿では,バイリンガル辞書のPOSタグ認識のためのアルゴリズムを提案する。
このアルゴリズムはAl-Mawrid Arabic- English 辞書に適用される。
- 参考スコア(独自算出の注目度): 0.4374837991804084
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposed an algorithm for part-of-speech (POS) tagging senses of a bilingual dictionary. The algorithm is applied on the Al-Mawrid Arabic-English dictionary. The tagging task is accomplished by transferring the POS tags of the English translation equivalences (TEs) to the dictionary senses after dis-ambiguities process. The English POS tags of senses are acquired from the Princeton WordNet. POS tagging of bilingual dictionary senses is prerequisite to link a bilingual dictionary to WordNet and/or standardizing that dictionary into WordNet-LMF format where the synset (set of synonyms), not word, is the basic brick. The registered accuracy is high though the cost is little. Building NLP/HLT tools needs linguistic experts, large investments, and long time. For statistical approach, we need large annotated corpora and for rule-based approach, we need large lexicon that contains rich linguistic and world knowledge. That motivates the appearance of what are called resource-light approaches to develop natural language processing (NLP) tools for poor-resource languages.
- Abstract(参考訳): 本稿では,バイリンガル辞書のPOSタグ認識のためのアルゴリズムを提案する。
このアルゴリズムはAl-Mawrid Arabic- English 辞書に適用される。
このタグ付けタスクは、不明瞭な処理の後、英訳同値(TE)のPOSタグを辞書感覚に転送することで達成される。
英語のPOSタグは Princeton WordNet から取得される。
バイリンガル辞書センスのPOSタグ付けは、二言語辞書をWordNetにリンクし、/またはその辞書をWordNet-LMF形式に標準化することが必須である。
登録精度は高いが、費用は少ない。
NLP/HLTツールの構築には言語の専門家、大規模な投資、長い時間が必要である。
統計学的なアプローチには、大きな注釈付きコーパスが必要であり、ルールに基づくアプローチには、豊富な言語的知識と世界的知識を含む大きな辞書が必要である。
これは、低リソース言語のための自然言語処理(NLP)ツールを開発するためのリソースライトアプローチ(source-light approach)と呼ばれるものの出現を動機付けている。
関連論文リスト
- Generating Concept Lexicalizations via Dictionary-Based Cross-Lingual Sense Projection [11.136711217530157]
目的語補題と既存の語彙概念をセマンティック・プロジェクションで関連付けることで感覚を生成する。
提案手法は,英語の構文をアライメントされたターゲット言語トークンに投影し,対応する補題をそれらの合成集合に割り当てる。
本手法を,辞書ベースおよび大規模言語モデルベースラインと同様に,先行手法と比較し,複数の言語で評価する。
論文 参考訳(メタデータ) (2026-04-15T20:27:26Z) - CEFR-Annotated WordNet: LLM-Based Proficiency-Guided Semantic Database for Language Learning [0.0]
我々は、共通ヨーロッパ言語参照フレームワーク(CEFR)を付加したWordNetを開発する。
我々は、WordNetにおける感覚定義と英語語彙プロファイルオンラインにおけるエントリのセマンティックな類似性を測定する。
実験により, コーパス上で微調整されたモデルが金標準アノテーションで訓練されたモデルと相容れない性能を示した。
論文 参考訳(メタデータ) (2025-10-21T09:42:48Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Multilingual Word Sense Disambiguation with Unified Sense Representation [55.3061179361177]
本稿では,知識と教師付き多言語単語センス曖昧化(MWSD)システムを提案する。
我々は複数の言語に統一されたセンス表現を構築し、リッチソース言語から貧しい言語へアノテーションを転送することでMWSDのアノテーション不足問題に対処する。
SemEval-13およびSemEval-15データセットの評価により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-14T01:24:03Z) - Automatically Creating a Large Number of New Bilingual Dictionaries [2.363388546004777]
本稿では,低リソース言語に対して,多数のバイリンガル辞書を自動生成する手法を提案する。
提案アルゴリズムは,利用可能なWordnetと機械翻訳器を用いて,ソースコード中の単語を多言語に翻訳する。
論文 参考訳(メタデータ) (2022-08-12T04:25:23Z) - Creating Reverse Bilingual Dictionaries [2.792030485253753]
本稿では,既存のバイリンガル辞書から新たなリバースバイリンガル辞書を作成するアルゴリズムを提案する。
提案アルゴリズムは,英単語ネットを用いた単語概念ペア間の類似性を利用して,逆辞書エントリを生成する。
論文 参考訳(メタデータ) (2022-08-08T01:41:55Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Subword Mapping and Anchoring across Languages [1.9352552677009318]
SMALA (Subword Mapping and Anchoring across Languages) は、バイリンガルなサブワード語彙を構築する方法である。
SMALAは教師なしの最先端マッピング技術を用いてサブワードアライメントを抽出する。
SMALAで獲得した単語語彙は,多くの偽陽性と偽陰性を含む文のBLEUスコアが高くなることを示す。
論文 参考訳(メタデータ) (2021-09-09T20:46:27Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。