論文の概要: Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models
- arxiv url: http://arxiv.org/abs/2606.07522v1
- Date: Sun, 19 Apr 2026 17:30:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.671206
- Title: Community-Specific Slang and Entity Detection via Semantic Shift in Fine-Tuned Language Models
- Title(参考訳): 微調整言語モデルにおけるセマンティックシフトによるコミュニティ特化スラングとエンティティ検出
- Authors: Julia Kruk, Sanchita Porwal, Amitrajit Bhattacharjee, Mansi Phute,
- Abstract要約: オンラインコミュニティからスラング、ユニークな実体、民俗を解決するための教師なしの方法を提案する。
その結果,下位10パーセントのデータを抽出することで,コミュニティに特有の意味を持つ単語を解決できることが示唆された。
対照的に、上位10パーセントのデータは、比較的普遍的な意味論を持つ単語で構成されていることを示す。
- 参考スコア(独自算出の注目度): 2.938641176780401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an unsupervised method of resolving slang, unique entities, and folklore from online communities by isolating words in the lexicon that have the highest magnitude of semantic shift. Semantic shift is defined as the evolution of a word's encoded representation as a result of fine-tuning a pretrained Large Language Model (LLM) on a community-specific text corpus. This value is inversely proportional to the cosine similarity between the base model's encoded representation of a word, and a fine-tuned model's encoded representation. We fine-tune the DistilRoBERTa model on text corpora collected from 3 Reddit subreddits (r/Technology, r/Gaming, r/WorldofWarcraft), model a distribution of cosine similarity over the lexicon, and show that one can successfully resolve words that have unique significance to the community by pulling data in the bottom 10-percentile. In contrast, we show that data in the top 10-percentile consist of words that carry relatively universal semantics.
- Abstract(参考訳): セマンティックシフトの度合いが高い辞書で単語を分離することで,スラング,ユニークな実体,民俗をオンラインコミュニティから解決する,教師なしの手法を提案する。
セマンティックシフトは、コミュニティ固有のテキストコーパス上で事前訓練された大規模言語モデル(LLM)を微調整した結果、単語の符号化表現の進化として定義される。
この値は、基本モデルの単語の符号化表現と微調整モデルの符号化表現とのコサイン類似性に逆比例する。
Redditの3つのサブレディット(r/Technology, r/Gaming, r/WorldofWarcraft)から収集したテキストコーパス上でDistilRoBERTaモデルを微調整し, 語彙上のコサイン類似性の分布をモデル化し, 下位10パーセントのデータを抽出することで, コミュニティにユニークな意味を持つ単語の解決に成功したことを示す。
対照的に、上位10パーセントのデータは、比較的普遍的な意味論を持つ単語で構成されていることを示す。
関連論文リスト
- Vocab Diet: Reshaping the Vocabulary of LLMs with Vector Arithmetic [9.273273023595065]
大型言語モデル (LLM) は「ウォーク」>「ウォーク」のような単語形式のバリエーションを埋め込み空間における線形方向としてエンコードする。
標準的なトークン化アルゴリズムは、これらのバリエーションを異なるトークンとして扱う。
本稿では,各面形状に一意なトークンを割り当てるのではなく,共有基底形状と変換ベクトルから構成する,語彙のコンパクトな再構成を提案する。
論文 参考訳(メタデータ) (2025-10-19T20:56:58Z) - Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Word-Level Representation From Bytes For Language Modeling [46.28198397863388]
サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
論文 参考訳(メタデータ) (2022-11-23T03:11:13Z) - Chinese Word Sense Embedding with SememeWSD and Synonym Set [17.37973450772783]
本稿では,多文単語のすべての感覚に異なるベクトルを割り当てるために,SememeWSD Synonym(SWSDS)モデルを提案する。
OpenHowNetから単語センスの上位10の同義語を取得し、単語センスのベクトルとして同義語の平均ベクトルを算出する。
実験では,Gensimのwmdistance法を用いて意味的類似性計算におけるSWSDSモデルの評価を行った。
論文 参考訳(メタデータ) (2022-06-29T03:42:03Z) - Signal in Noise: Exploring Meaning Encoded in Random Character Sequences
with Character-Aware Language Models [0.7454831343436739]
ランダムな文字列からなる$n$-grams、または$garble$は、現在ある言語内外における単語の意味を研究するための新しい文脈を提供する。
characterBERT を用いて,巨大コーパス,既存言語,擬似単語の埋め込みを研究することにより,モデルの高次元埋め込み空間の軸を同定し,これらのクラスを$n$-gram で分離する。
論文 参考訳(メタデータ) (2022-03-15T13:48:38Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - SChME at SemEval-2020 Task 1: A Model Ensemble for Detecting Lexical
Semantic Change [58.87961226278285]
本稿では,SemEval-2020 Task 1における語彙意味変化の教師なし検出法であるSChMEについて述べる。
SChMEは、分布モデル(単語埋め込み)とワード周波数モデルの信号を組み合わせたモデルアンサンブルを使用し、各モデルは、その特徴に応じて単語が苦しむ確率を示す投票を行う。
論文 参考訳(メタデータ) (2020-12-02T23:56:34Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Lexical Sememe Prediction using Dictionary Definitions by Capturing
Local Semantic Correspondence [94.79912471702782]
セメムは人間の言語の最小の意味単位として定義されており、多くのNLPタスクで有用であることが証明されている。
本稿では,このようなマッチングを捕捉し,セメムを予測できるセメム対応プールモデルを提案する。
我々は,有名なSememe KB HowNetのモデルとベースライン手法を評価し,そのモデルが最先端のパフォーマンスを実現することを発見した。
論文 参考訳(メタデータ) (2020-01-16T17:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。