論文の概要: Examining the Limits of Word2Vec with Toki Pona
- arxiv url: http://arxiv.org/abs/2606.17299v1
- Date: Mon, 15 Jun 2026 21:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.147556
- Title: Examining the Limits of Word2Vec with Toki Pona
- Title(参考訳): Toki PonaによるWord2Vecの限界の検討
- Authors: Daniel Zhenhan Huang, Hongchen Wu,
- Abstract要約: 本研究は,Word2Vecが極めて少ない語彙内で意味的関係を捉えることができるかどうかを検討する。
我々はT Toki Ponaコミュニティから、14万文(795万トークン)をトレーニングのためにソースしました。
文の約23%には、名前付きエンティティ、ローンワード、ネオロジズムなどの非トキポナトークンが含まれている。
- 参考スコア(独自算出の注目度): 1.9336815376402718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word2Vec's effectiveness at generating semantic embeddings has been widely validated, yet it has been tested almost exclusively on languages with large vocabulary inventories. This study examines whether Word2Vec can successfully capture semantic relationships within an extremely reduced vocabulary using data from Toki Pona, a constructed language with approximately 130 words. We sourced 1.4 million sentences (7.95 million tokens) from the Toki Pona community for training. Approximately 23% of sentences in the corpus contain non-Toki Pona tokens such as named entities, loanwords, and neologisms. To investigate whether this linguistic noise enhances or hinders performance -- a topic rarely addressed in word embedding literature -- we trained two distinct models: one retaining these incidental tokens and another filtering them out completely. Evaluation was conducted using quantitative methods measuring word proximity to semantic category centroids, automated silhouette scores via agglomerative clustering, and qualitative analysis utilizing representational similarity matrices compared against English. The results indicate that while sparse, non-core tokens do not affect the relative structure of the learned embeddings, they actually draw similar words closer together in the vector space. Importantly, Word2Vec's effectiveness depends more on distributional patterns than lexicon size even at this extreme lower bound.
- Abstract(参考訳): Word2Vecのセマンティック埋め込み生成の有効性は広く検証されているが、大語彙の在庫を持つ言語ではほとんどテストされていない。
本研究では,約130単語の構築言語である Toki Pona のデータを用いて,Word2Vec が単語間の意味的関係を極めて少ない語彙で捉えることができるかどうかを検討した。
我々はT Toki Ponaコミュニティから、14万文(795万トークン)をトレーニングのためにソースしました。
コーパスの文の約23%には、名前付きエンティティ、ローンワード、ネオロジズムなどの非トキポナトークンが含まれている。
この言語ノイズがパフォーマンスを向上または阻害するかどうかを調べるため、私たちは2つの異なるモデルをトレーニングしました。
意味カテゴリーセントロイドへの単語近接度を測定する定量的手法、凝集クラスタリングによるシルエットの自動スコア、および英語との比較による表現類似度行列を用いた定性分析を用いて評価を行った。
その結果,非中小のトークンは学習した埋め込みの相対構造に影響を与えないが,ベクトル空間内では類似した単語が密接な関係にあることが示唆された。
重要なことに、Word2Vecの有効性は、この極端な下界においても、語彙サイズよりも分布パターンに依存している。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Morphological evaluation of subwords vocabulary used by BETO language model [0.1638581561083717]
サブワードのトークン化アルゴリズムはより効率的で、人間の介入なしに単語とサブワードの語彙を独立して構築することができる。
本研究では,これらの語彙と言語の形態の重なり合いに着目し,語彙の形態的品質を評価する手法を提案する。
この手法をBPE,Wordpiece,Unigramの3つのサブワードトークン化アルゴリズムによって生成された語彙に適用することにより,これらの語彙は一般に非常に低い形態的品質を示すと結論付けた。
この評価は、著者の主張の不整合を考慮し、トークン化器、すなわちWordpieceが使用するアルゴリズムを明らかにするのに役立ちます。
論文 参考訳(メタデータ) (2024-10-03T08:07:14Z) - An Evaluation of Sindhi Word Embedding in Semantic Analogies and Downstream Tasks [2.3624125155742064]
我々は,複数のWebリソースから6100万以上の単語をクロールする新しい単語埋め込み型コーパスを提案する。
クロールデータから不要なテキストをフィルタリングするための前処理パイプラインを設計する。
クリーニングされた語彙は、最先端の連続バグ・オブ・ワード、スキップグラム、GloVeワード埋め込みアルゴリズムに供給される。
論文 参考訳(メタデータ) (2024-08-28T11:36:29Z) - Spoken Word2Vec: Learning Skipgram Embeddings from Speech [0.8901073744693314]
本研究では,入力単位が音響的に相関している場合に,スワップスキップグラムのようなアルゴリズムが分布意味論を符号化できないことを示す。
そこで本研究では,モデルのエンド・ツー・エンドの代替案の可能性を説明し,その結果の埋め込みへの影響について検討する。
論文 参考訳(メタデータ) (2023-11-15T19:25:29Z) - Simple, Interpretable and Stable Method for Detecting Words with Usage
Change across Corpora [54.757845511368814]
2つの文体を比較し、その用法が異なる単語を探すという問題は、しばしばデジタル人文科学や計算社会科学において生じる。
これは一般に、各コーパスに単語の埋め込みを訓練し、ベクトル空間を整列させ、整列空間における余弦距離が大きい単語を探すことでアプローチされる。
本稿では,ベクトル空間アライメントを使わず,各単語の近傍を考慮した代替手法を提案する。
論文 参考訳(メタデータ) (2021-12-28T23:46:00Z) - Clustering and Network Analysis for the Embedding Spaces of Sentences
and Sub-Sentences [69.3939291118954]
本稿では,文とサブ文の埋め込みを対象とする包括的クラスタリングとネットワーク解析について検討する。
その結果,1つの手法が最もクラスタリング可能な埋め込みを生成することがわかった。
一般に、スパン部分文の埋め込みは、原文よりもクラスタリング特性が優れている。
論文 参考訳(メタデータ) (2021-10-02T00:47:35Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - On the Effects of Using word2vec Representations in Neural Networks for
Dialogue Act Recognition [0.6767885381740952]
文中の単語列をキャプチャする再帰モデルを探索するディープニューラルネットワークを提案する。
このモデルを英語、フランス語、チェコ語という3つの言語で検証する。
論文 参考訳(メタデータ) (2020-10-22T07:21:17Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z) - Comparative Analysis of Word Embeddings for Capturing Word Similarities [0.0]
分散言語表現は、様々な自然言語処理タスクにおいて、言語表現において最も広く使われている技術となっている。
ディープラーニング技術に基づく自然言語処理モデルのほとんどは、単語埋め込みと呼ばれる、すでに訓練済みの分散単語表現を使用している。
適切な単語の埋め込みを選択することは 複雑な作業です なぜなら、投影された埋め込み空間は 人間にとって直感的ではないからです
論文 参考訳(メタデータ) (2020-05-08T01:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。