論文の概要: CATCH-ME if you RAG: a dataset of Contextually Annotated multi-Turn Counterspeech against Hate and Misinformation Exchanges
- arxiv url: http://arxiv.org/abs/2606.20369v1
- Date: Thu, 18 Jun 2026 15:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.948062
- Title: CATCH-ME if you RAG: a dataset of Contextually Annotated multi-Turn Counterspeech against Hate and Misinformation Exchanges
- Title(参考訳): CATCH-ME : RAG:Hate と Misinformation Exchanges に対する文脈アノテーション付きマルチTurn Counterspeech のデータセット
- Authors: Helena Bonaldi, Genoveffa Martone, Marco Guerini,
- Abstract要約: 本稿では,憎悪と誤情報との交わりに対処する対話の大規模,専門家による多言語データセットについて紹介する。
5つの言語をカバーし、7つの辺境化グループに向けられた憎悪を狙うこの新たなリソースは、より説得力があり、事実に根ざした反音声モデルのトレーニングと評価を可能にする。
- 参考スコア(独自算出の注目度): 9.965670989893267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online hate speech and misinformation frequently overlap, yet NLP research has mainly treated them in isolation. While LLMs represent a scalable solution for assisting humans in the generation of counterspeech for both threats, zero-shot models frequently generate repetitive and vague responses, underscoring the need for high-quality examples to steer model generation. However, existing counterspeech datasets against the overlap of hate and misinformation are scarce and limited to single-turn English dialogues, while real-life interactions span across multiple turns and languages. To bridge this gap, we introduce the first large-scale, expert-curated, multilingual dataset of dialogues tackling the intersection of hate and misinformation. To ensure factual grounding, the dialogues are also anchored in verified external knowledge (i.e., fact-checking articles and NGO reports) and include document- and chunk-level span annotations, making it directly applicable for RAG systems. Covering five languages and targeting hate directed at seven marginalized groups, this novel resource enables the training and evaluation of more persuasive, factually grounded counterspeech models.
- Abstract(参考訳): オンラインヘイトスピーチと誤情報はしばしば重複するが、NLP研究は主に独立して扱われている。
LLMは、両方の脅威に対するカウンター音声の生成を支援するスケーラブルなソリューションである一方、ゼロショットモデルは繰り返し、曖昧な応答を頻繁に生成し、モデル生成のための高品質な例の必要性を強調している。
しかし、ヘイトと誤報の重複に対する既存の対応データセットは、複数のターンや言語にまたがる実生活の相互作用に対して、シングルターンの英会話に限られている。
このギャップを埋めるために、憎しみと誤報の交わりに対処する対話の大規模で専門家による多言語データセットを導入した。
事実的根拠を確保するため、対話は検証された外部知識(ファクトチェック記事やNGOレポート)に固定され、文書レベルのスパンアノテーションとチャンクレベルのアノテーションが含まれており、RAGシステムに直接適用することができる。
5つの言語をカバーし、7つの辺境化グループに向けられた憎悪を狙うこの新たなリソースは、より説得力があり、事実に根ざした反音声モデルのトレーニングと評価を可能にする。
関連論文リスト
- Reading Between the Lines: The One-Sided Conversation Problem [49.36189146596834]
我々は一方的な会話問題(1SC)を定式化する。
リアルタイムのユースケースに対して、欠落した話者のターンを再構築し、一方の書き起こしから要約を生成する。
プライバシーに配慮した会話型AIへの一歩となる有望な成果を報告します。
論文 参考訳(メタデータ) (2025-11-04T22:53:57Z) - Dual Information Speech Language Models for Emotional Conversations [48.094826104102204]
音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
論文 参考訳(メタデータ) (2025-08-11T15:33:44Z) - Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。
我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。
評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:44:06Z) - Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF [14.2594830589926]
オンラインヘイトスピーチに対する反応として定義されているCounterspeechは、非センセーショナルソリューションとしてますます利用されている。
ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。
CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
論文 参考訳(メタデータ) (2024-03-15T08:03:49Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Human-Machine Collaboration Approaches to Build a Dialogue Dataset for
Hate Speech Countering [15.905165019585942]
本稿では,機械生成対話に対する人間の専門家アノテータの介入を組み合わせたダイアラルデータ収集のためのハイブリッド手法を提案する。
この研究の結果、DIALOCONANは、憎悪者とNGOオペレーターの間の3000以上の架空のマルチターン対話からなる最初のデータセットであり、6つのヘイトターゲットをカバーしている。
論文 参考訳(メタデータ) (2022-11-07T10:37:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。