論文の概要: Best Preprocessing Techniques for Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2606.24055v1
- Date: Tue, 23 Jun 2026 02:00:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.729117
- Title: Best Preprocessing Techniques for Sentiment Analysis
- Title(参考訳): 感性分析のための最良前処理技術
- Authors: Saranzaya Magsarjav, Melissa Humphries, Jonathan Tuke, Lewis Mitchell,
- Abstract要約: Twitterデータセットにおける感情分析は、製品に対する世論の監視と政治的・社会的運動の分析を可能にするため重要である。
1つの重要なステップは、機械学習アルゴリズムのためのテキストの自動処理である。
トークン化は最も影響が大きいのに対して,スペル補正は最も影響の少ない前処理技術であることを示す。
- 参考スコア(独自算出の注目度): 2.099922236065961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis in Twitter datasets is important because it enables monitoring public opinion on products and analysis of political and social movements. One critical step is preprocessing: the automated processing of text for machine learning algorithms. Preprocessing plays a critical role in reducing noise and improving efficiency. However, little research has systematically examined the order in which preprocessing techniques are implemented. We find that, when accounting for order, spelling correction is the least impactful preprocessing technique, whereas tokenisation is the most impactful. Stemming and stop-word removal are interchangeable, and it is better to remove stop words without removing negation. The best order for applying the preprocessing techniques was tokenisation, text cleaning, stemming, and then stopword removal. Our results provide a systematic approach for practitioners to deploy preprocessing to improve model output without the costly preprocessing exploratory phase.
- Abstract(参考訳): Twitterデータセットにおける感情分析は、製品に対する世論の監視と政治的・社会的運動の分析を可能にするため重要である。
1つの重要なステップは、機械学習アルゴリズムのためのテキストの自動処理である。
プリプロセッシングはノイズの低減と効率向上に重要な役割を果たしている。
しかし,前処理技術の導入順序を体系的に検討する研究はほとんどない。
順序を考慮した場合、スペル補正が最も影響の少ない前処理手法であるのに対して、トークン化は最も影響の大きい手法である。
ステミングと停止語除去は交換可能であり、否定を除去することなく停止語を除去する方がよい。
プリプロセッシング技術を適用する最良の順序は、トークン化、テキストのクリーニング、ストーミング、そしてストップワード除去であった。
提案手法は, 探索段階のコストを伴わずに, モデル出力を改善するために, プリプロセッシングをデプロイするための体系的なアプローチを提供する。
関連論文リスト
- The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - How Does A Text Preprocessing Pipeline Affect Ontology Matching? [2.534284147778552]
トークン化と正規化(フェーズ1テキストプリプロセッシングに分類される)は、ストップワードの除去やステミング/レマタイズよりも効果的である。
本稿では,第2相テキスト前処理で発生する不要な偽マッピングを修復する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T14:51:02Z) - Hate Content Detection via Novel Pre-Processing Sequencing and Ensemble Methods [15.647035299476894]
ソーシャルメディア、特にTwitterは、トロールやヘイトスピーチといったインシデントが大幅に増加した。
本稿では,ウェブ上のヘイトコンテンツを抑制するための計算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-08T15:32:17Z) - Detection-Driven Object Count Optimization for Text-to-Image Diffusion Models [54.641726517633025]
本稿では,事前学習したオブジェクトカウント技術とオブジェクト検出器を用いて生成をガイドする新しいフレームワークを提案する。
まず、完全生成画像上で計算された外ループ損失を用いてカウントトークンを最適化する。
第二に、視点や比例シフトによる誤差を補正する検出駆動スケーリング項を導入する。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Preprocessors Matter! Realistic Decision-Based Attacks on Machine
Learning Systems [56.64374584117259]
決定に基づく攻撃は、ハードラベルクエリのみを作成することによって、機械学習(ML)モデルに対する逆例を構築する。
我々は,(i)プリプロセッサをリバースエンジニアリングし,(ii)この抽出した情報を用いてエンド・ツー・エンド・システムを攻撃する手法を開発した。
我々のプリプロセッサ抽出法は数百のクエリしか必要とせず、我々のプリプロセッサ・アウェア・アタックはモデルのみを攻撃する場合と同じ効果を回復する。
論文 参考訳(メタデータ) (2022-10-07T03:10:34Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。