論文の概要: An End-to-End Hybrid Framework for Rumour Detection in Low-Resources Algerian Dialect
- arxiv url: http://arxiv.org/abs/2606.13411v1
- Date: Thu, 11 Jun 2026 14:40:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-12 15:55:27.856353
- Title: An End-to-End Hybrid Framework for Rumour Detection in Low-Resources Algerian Dialect
- Title(参考訳): 低音源アルジェリア方言における単語検出のためのエンドツーエンドハイブリッドフレームワーク
- Authors: Dihia Lanasri, Fatima Benbarek,
- Abstract要約: 本稿では,アルジェリア方言のソーシャルメディアコンテンツのためのエンドツーエンドの噂ハイブリッドフレームワークを提案する。
我々は、実際のソーシャルメディア投稿、合成データ、およびFASSILAコーパスを組み合わせることで、ドメイン固有の注釈付きデータセットを構築する。
アラビア文字とアラビア文字で並列データセットを生成するために、文字パイプラインも導入されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The rapid growth of social media has intensified the spread of rumours. This issue is more challenging in the Algerian context due to the informal and code-switched nature of dialectal content, the scarcity of annotated resources, and the limited effectiveness of standard Arabic NLP tools on dialect text. This paper presents an end-to-end rumour detection hybrid framework for Algerian dialect social media content. We build a domain-specific annotated dataset by combining real social media posts, synthetic data, and the FASSILA corpus, with automatic labeling based on a similarity-based annotation process. A transliteration pipeline is also introduced to generate parallel datasets in Arabic script and Arabizi. We evaluate multiple approaches, including classical machine learning, deep learning, transformers, and hybrid models. Experimental results show that a hybrid approach combining transformer embeddings with a classical classifier achieves the best performance, reaching an F1-score of 0.84. We also find that domain-specific pre-training is more important than model size, with social media-trained models outperforming larger models trained on formal Arabic corpora. These results demonstrate the feasibility of rumour detection in low-resource Algerian dialect settings.
- Abstract(参考訳): ソーシャルメディアの急速な成長は、噂の拡散を激化させている。
この問題は、標準アラビア語のNLPツールが方言テキスト上で限られた有効性を持つため、アルジェリアの文脈では、方言内容の非公式でコードに切り替えられた性質、注釈付きリソースの不足などにより、より困難である。
本稿では,アルジェリア方言のソーシャルメディアコンテンツのためのエンドツーエンドの噂ハイブリッドフレームワークを提案する。
我々は、実際のソーシャルメディア投稿、合成データ、およびFASSILAコーパスを類似性に基づくアノテーションプロセスに基づく自動ラベリングと組み合わせて、ドメイン固有の注釈付きデータセットを構築する。
アラビア文字とアラビア文字で並列データセットを生成するために、文字パイプラインも導入されている。
従来の機械学習、ディープラーニング、トランスフォーマー、ハイブリッドモデルなど、さまざまなアプローチを評価します。
実験結果から, 変圧器埋め込みと古典的分類器を併用したハイブリッド手法は, F1スコア0.84に到達した。
また、ドメイン固有の事前学習は、モデルサイズよりも重要であり、ソーシャルメディアで訓練されたモデルは、フォーマルなアラビアコーパスで訓練されたより大きなモデルよりも優れています。
これらの結果は、低リソースアルジェリア方言設定における噂検出の可能性を示している。
関連論文リスト
- dziribot: rag based intelligent conversational agent for algerian arabic dialect [0.0]
本稿では,これらの課題を克服するために特別に設計された対話型ハイブリッドエージェントDziriBOTを紹介する。
特殊自然言語理解(NLU)と検索拡張生成(RAG)を統合した多層アーキテクチャを提案する。
実験により,DziriBERTモデルが最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2026-02-02T16:11:32Z) - ArFake: A Multi-Dialect Benchmark and Baselines for Arabic Spoof-Speech Detection [2.5962590697722447]
アラビア語スプーフ音声データセットを初めて紹介する。
以上の結果から,FishSpeechはカサブランカコーパスのアラビア語音声クローニングにおいて,他のTSモデルよりも優れていた。
論文 参考訳(メタデータ) (2025-09-26T18:11:20Z) - Hybrid Deep Learning and Signal Processing for Arabic Dialect Recognition in Low-Resource Settings [0.0]
アラビア語の方言認識は、アラビア語の言語的多様性と大きな注釈付きデータセットの不足により、大きな課題を呈している。
本研究では,古典的な信号処理技術とディープラーニングアーキテクチャを融合したハイブリッドモデリング戦略について検討する。
論文 参考訳(メタデータ) (2025-06-26T15:36:25Z) - GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training [1.4231093967875448]
General Arabic Text Embedding (GATE) モデルはMTEBベンチマークのセマンティックテキスト類似性タスクで最先端のパフォーマンスを達成する。
Gateは、STSベンチマークで20-25%のパフォーマンス改善により、OpenAIを含むより大きなモデルを上回っている。
論文 参考訳(メタデータ) (2025-05-30T13:29:03Z) - A Probability--Quality Trade-off in Aligned Language Models and its Relation to Sampling Adaptors [50.046717886067555]
一致した言語モデルからコーパスをサンプリングする場合,文字列の平均報酬と平均ログ類似度との間にはトレードオフが存在することを示す。
我々は、この現象を形式的に処理し、サンプリングアダプタの選択が、どれだけの確率で報酬を交換できるかを選択できるかを実証する。
論文 参考訳(メタデータ) (2024-06-14T17:38:21Z) - Arabic Tweet Act: A Weighted Ensemble Pre-Trained Transformer Model for
Classifying Arabic Speech Acts on Twitter [0.32885740436059047]
本稿では,トランスフォーマー深層学習ニューラルネットワークに基づくTwitter方言のアラビア音声行為分類手法を提案する。
本研究では,BERTに基づく重み付きアンサンブル学習手法を提案する。
その結果,最高のBERTモデルは平均F1スコアと0.73と0.84の精度を持つaraBERTv2-Twitterモデルであることが判明した。
論文 参考訳(メタデータ) (2024-01-30T19:01:24Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。