論文の概要: TeamHerald@CHIPSAL 2026: Hate Speech Detection and Sentiment Analysis of Nepali Memes using Transformer-based Architectures and Ensemble Learning
- arxiv url: http://arxiv.org/abs/2606.08770v1
- Date: Sun, 07 Jun 2026 18:20:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.439053
- Title: TeamHerald@CHIPSAL 2026: Hate Speech Detection and Sentiment Analysis of Nepali Memes using Transformer-based Architectures and Ensemble Learning
- Title(参考訳): TeamHerald@CHIPSAL 2026: トランスフォーマーアーキテクチャとアンサンブルラーニングを用いたネパールのミームのヘイトスピーチ検出と感性分析
- Authors: Ashish Acharya, Anish Khatiwada, Rohit Khadka, Pragya Aryal,
- Abstract要約: 本研究は,OCR層を用いて埋め込みテキストを抽出し,Transformerベースのアーキテクチャでモデル化することで,テキスト中心のアプローチに焦点を当てる。
我々は6つの異なるモデルを評価し、二進的ヘイトスピーチ検出と三クラス感情分析という2つのタスクにおけるハードとソフトの投票戦略の有効性を検討した。
- 参考スコア(独自算出の注目度): 0.09999629695552194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The analysis of internet memes in the Nepali language is complicated by frequent code-mixing and a lack of established baseline resources. While memes inherently combine visual and textual elements, this study focuses on a text-centric approach by extracting embedded text using an OCR layer and modeling it with Transformer-based architectures. We evaluate six distinct models and investigate the comparative effectiveness of Hard and Soft Voting ensemble strategies across two tasks: binary hate speech detection and three-class sentiment analysis. Experimental results show that a standalone decoder-only model achieved the highest performance for binary classification, whereas the Soft Voting ensemble performed best for the multi-class sentiment task, yielding a 15.8% relative improvement in Macro F1-score over the strongest standalone baseline. These findings suggest that ensemble strategies behave differently across binary and multi-class tasks, highlighting the importance of selecting aggregation methods suited to the classification objective.
- Abstract(参考訳): ネパール語におけるインターネットミームの分析は、頻繁なコードミキシングと確立されたベースラインリソースの欠如によって複雑である。
ミームは本質的に視覚的要素とテキスト的要素を組み合わせているが、本研究では、OCR層を用いて埋め込みテキストを抽出し、トランスフォーマーベースのアーキテクチャでモデル化することで、テキスト中心のアプローチに焦点を当てる。
我々は6つの異なるモデルを評価し、二進的ヘイトスピーチ検出と三クラス感情分析という2つのタスクにおけるハードとソフトの投票戦略の比較効果を検討した。
実験の結果、スタンドアロンデコーダのみのモデルがバイナリ分類で最高性能を達成したのに対し、ソフト投票アンサンブルはマルチクラスの感情タスクで最高性能を示し、最強のスタンドアロンベースラインに対してマクロF1スコアが15.8%向上した。
これらの結果から,アンサンブル戦略は二進的・多進的タスクによって異なる振る舞いをしており,分類目的に適した集約手法を選択することが重要であることが示唆された。
関連論文リスト
- MEME-Fusion@CHiPSAL 2026: Multimodal Ablation Study of Hate Detection and Sentiment Analysis on Nepali Memes [0.0]
本稿では,CHiPSAL 2026共有タスクに対して,サブタスクAとサブタスクBの両方に対処するシステムを提案する。
視覚符号化のためのCLIPと多言語テキスト表現のためのBGE-M3を組み合わせたハイブリッド・モーダル・アテンション融合アーキテクチャを提案する。
テキストのみのベースラインであるSubtask Aの5.9%のF1マクロ改善を実現した。
論文 参考訳(メタデータ) (2026-04-13T07:37:14Z) - Enhancing Quranic Learning: A Multimodal Deep Learning Approach for Arabic Phoneme Recognition [0.0]
本研究では、アラビア音素誤発音検出のためのトランスフォーマーに基づくマルチモーダルフレームワークを提案する。
このフレームワークは、UniSpeech由来の音響埋め込みとWhisper転写から抽出されたBERTベースのテキスト埋め込みを統合する。
この研究は、インテリジェントで話者に依存しないマルチモーダル・コンピュータ支援言語学習(CALL)システムの開発に寄与する。
論文 参考訳(メタデータ) (2025-11-21T18:25:46Z) - Training-Free Spectral Fingerprints of Voice Processing in Transformers [0.0]
異なる変換器アーキテクチャが、異なる接続パターンを介して同一の言語計算を実装していることを示す。
注意誘導トークングラフ上でのグラフ信号処理を用いて、20言語と3つのモデルファミリ間の接続性の変化を追跡する。
論文 参考訳(メタデータ) (2025-10-21T23:33:43Z) - Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。
VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。
ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文 参考訳(メタデータ) (2025-10-21T14:59:29Z) - PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。
本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T11:21:18Z) - Rethinking Multimodal Sentiment Analysis: A High-Accuracy, Simplified Fusion Architecture [2.3272964989267626]
本稿では,発話レベルの感情分類に適した,軽量かつ効果的な融合型ディープラーニングモデルを提案する。
我々のアプローチは、注意深く機能エンジニアリングとモジュール設計を行うことで、より単純な融合戦略がより複雑なモデルより優れているか、あるいは一致しているかを示します。
論文 参考訳(メタデータ) (2025-05-05T02:31:11Z) - Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective [50.261681681643076]
本稿では,SemVarEffectとSemVarBenchというベンチマークを用いて,テキスト・画像合成における入力のセマンティックな変化と出力の因果性を評価する。
本研究は,T2I合成コミュニティによるヒューマンインストラクション理解の探索を促進する効果的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2024-10-14T08:45:35Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z) - Unsupervised Deep Cross-modality Spectral Hashing [65.3842441716661]
このフレームワークは、最適化をバイナリ最適化とハッシュ関数学習に分離する2段階のハッシュアプローチである。
本稿では,単一モダリティと二項相互モダリティを同時に学習するスペクトル埋め込みに基づく新しいアルゴリズムを提案する。
我々は、画像に強力なCNNを活用し、テキストモダリティを学ぶためのCNNベースのディープアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-08-01T09:20:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。