論文の概要: Leveraging LaBSE with Progressive Curriculum Learning for Multicultural Polarization
- arxiv url: http://arxiv.org/abs/2606.21718v1
- Date: Fri, 19 Jun 2026 20:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-26 03:49:00.503689
- Title: Leveraging LaBSE with Progressive Curriculum Learning for Multicultural Polarization
- Title(参考訳): 多文化分極のための進歩的カリキュラム学習を用いたLaBSEの活用
- Authors: Sachin Sundar, Sandeep Kumar, Mothish M,
- Abstract要約: オンライン分極の検出は、特に多言語と多文化の文脈において、依然として重要な課題である。
本稿では,LaBSEの埋め込みを利用して,強力な言語間学習を実現するアーキテクチャを提案する。
また,検索型プロンプトフレームワークにおける多種多様なエンコーダモデルの性能評価を行う。
- 参考スコア(独自算出の注目度): 2.571702746660217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting online polarization remains a critical challenge, particularly in multilingual and multicultural contexts where intergroup hostility is prevalent. The problem is particularly challenging due to the data scarcity for these tasks in the low-resource languages. Identifying such phenomena has become an active area of research and is addressed in SemEval-2026 Task 9: Multilingual, Multicultural Online Polarization Detection. To address this problem we propose an architecture that leverages LaBSE embeddings - an unconventional choice typically reserved for retrieval tasks, to obtain strong cross-lingual learning which enhances scores in low-resource language by a score up to 0.2 macro F1. Furthermore, we provide a comprehensive ablation study evaluating the performance of diverse encoder models in the Qwen model family within a retrieval-based prompting framework. Our code will be soon available at https://github.com/carrycurious/PolarMind.
- Abstract(参考訳): オンライン分極の検出は、特にグループ間の敵対性が一般的である多言語および多文化の文脈において、依然として重要な課題である。
この問題は、低リソース言語におけるこれらのタスクのデータ不足のため、特に難しい。
このような現象の特定は研究の活発な領域となり,SemEval-2026 Task 9: Multilingual, Multi cultural Online Polarization Detection に対処されている。
この問題に対処するために,LBSE埋め込みを利用したアーキテクチャを提案する。このアーキテクチャは,検索タスクに通常予約される非従来的選択であり,0.2マクロF1までのスコアで低リソース言語でのスコアを向上する強力な言語間学習を実現する。
さらに,Qwenモデルファミリーにおける多種多様なエンコーダモデルの性能を,検索ベースのプロンプトフレームワーク内で評価する総合的アブレーション研究を行った。
私たちのコードは間もなくhttps://github.com/carrycurious/PolarMind.comで利用可能になります。
関連論文リスト
- Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers [32.12010196874932]
CSR-L(Code-Switching Retrieval benchmark-Lite)を導入し、人間のアノテーションを用いてデータセットを構築し、混合言語クエリの真の自然性を捉える。
コードスイッチングが基本的なパフォーマンスボトルネックとして機能し、堅牢な多言語モデルの有効性を低下させることを示す。
論文 参考訳(メタデータ) (2026-04-19T22:01:41Z) - Language-Coupled Reinforcement Learning for Multilingual Retrieval-Augmented Generation [73.54930910609328]
多言語検索強化学習フレームワークLcRLを提案する。
LcRLは言語に結合したグループ相対ポリシー最適化をポリシーと報酬モデルに統合する。
我々は,言語結合型グループサンプリングをロールアウトモジュールに導入し,知識バイアスを低減し,報酬モデルにおける補助的反一貫性のペナルティを正規化し,知識衝突を軽減する。
論文 参考訳(メタデータ) (2026-01-21T11:32:32Z) - Beyond Monolingual Assumptions: A Survey of Code-Switched NLP in the Era of Large Language Models [1.175067374181304]
単一発話における言語とスクリプトの交替であるコードスイッチングは、多言語NLPの根本的な課題である。
ほとんどの大規模言語モデル(LLM)は、混合言語入力、限られたCSWデータセット、評価バイアスに悩まされている。
この調査は、CSWを意識したLSM研究の総合的な分析を初めて提供する。
論文 参考訳(メタデータ) (2025-10-08T14:04:14Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Demystifying Multilingual Chain-of-Thought in Process Reward Modeling [86.98098988779809]
プロセス報酬モデル(PRM)を多言語設定に拡張するという課題に対処する。
我々は、7つの言語にまたがるデータセット上で多言語PRMを訓練し、それを英語から翻訳する。
本結果は,学習言語数と英語データ量の両方に対する多言語PRMの感度を強調した。
論文 参考訳(メタデータ) (2025-02-18T09:11:44Z) - PromptRefine: Enhancing Few-Shot Performance on Low-Resource Indic Languages with Example Selection from Related Example Banks [57.86928556668849]
大規模言語モデル(LLM)は、近ごろ、コンテキスト内学習(ICL)を通じて、印象的な数ショットの学習能力を実証した。
ICLのパフォーマンスは、数発のデモの選択に大きく依存しており、最も最適な例の選択は永続的な研究課題である。
本稿では,低リソースのIndic言語におけるICLの性能向上を目的とした,新しい代替最小化手法であるPromptRefineを提案する。
論文 参考訳(メタデータ) (2024-12-07T17:51:31Z) - Contrastive Learning-based Chaining-Cluster for Multilingual Voice-Face Association [24.843733099049015]
本稿では,FAME (Face-Voice Association in Multilingual Environments) 2024の課題に対して,新たな解決策を提案する。
対面音声アソシエーションを強化するために、対照的な学習に基づく連鎖クラスタ法に焦点を当てている。
言語が対面音声の関連性に与える影響について検討した。
その結果,提案手法の優れた性能を示し,提案手法の堅牢性と有効性を検証した。
論文 参考訳(メタデータ) (2024-08-04T13:24:36Z) - From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。
本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。
我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。