論文の概要: Quality and Agreement in Multilabel Emotion Annotation: A Case Study and Evaluation Framework
- arxiv url: http://arxiv.org/abs/2606.21069v1
- Date: Fri, 19 Jun 2026 03:36:05 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-06-23 11:30:04.187088
- Title: Quality and Agreement in Multilabel Emotion Annotation: A Case Study and Evaluation Framework
- Title(参考訳): マルチラベル感情アノテーションにおける品質と合意--事例研究と評価枠組み
- Authors: Emily Öhman, Anna Koufakou,
- Abstract要約: マルチラベル感情アノテーションのケーススタディを提案する。
本稿では,アノテータの行動とアグリゲーションの選択が,合意推定と下流感情分類にどのように影響するかを検討する。
本研究は,マルチラベル感情データセットの設計,集約,評価のための実践的ガイダンスを提供する。
- 参考スコア(独自算出の注目度): 0.042970700836450486
- License:
- Abstract: Emotion annotation is inherently subjective, yet most NLP pipelines still assume "gold" labels, typically produced by majority voting, and treat annotator variation as noise. In this paper, we present a multilabel emotion annotation case study and use it to examine how annotator behavior and aggregation choices affect both agreement estimates and downstream emotion classifiers. Rather than collapsing disagreement into a single label, we represent targets as soft vote-share labels (including an intensity-weighted variant) and evaluate models using both thresholded metrics (macro-/micro-F1) and probabilistic alignment (Bernoulli cross-entropy SoftBCE), alongside data-derived disagreement diagnostics. Across annotation regimes, we show that disagreement is structured and leaves measurable traces in model behavior: hard labels may maximize F1 metrics, while soft supervision yields predictions that better reflect empirical annotator variance and uncertainty. Our results provide practical guidance for designing, aggregating, and evaluating multilabel emotion datasets when multiple interpretations are plausible.
- Abstract(参考訳): 感情アノテーションは本質的に主観的であるが、ほとんどのNLPパイプラインは依然として、多数決によって生成される「金」ラベルを仮定し、アノテータの変動をノイズとして扱う。
本稿では,マルチラベル感情アノテーションのケーススタディを提案し,アノテータの行動とアグリゲーションの選択が合意推定と下流感情分類の両方にどのように影響するかを検討する。
1つのラベルに不一致を分解するのではなく、ターゲットをソフトな投票共有ラベル(強度重み付き変種を含む)として表現し、データ依存不一致診断とともに閾値付きメトリクス(macro-/micro-F1)と確率的アライメント(Bernoulli cross-entropy SoftBCE)の両方を用いてモデルを評価する。
ハードラベルはF1の指標を最大にし、ソフトインスペクションは経験的アノテータのばらつきと不確実性をよく反映する予測を導出する。
本結果は,複数の解釈が可能である場合に,複数ラベルの感情データセットを設計,集約,評価するための実践的なガイダンスを提供する。
関連論文リスト
- Discourse-Role Labels as Presentation-Time Variables for Context Use in Language Models [3.376024929309146]
本研究では,文脈拡張型言語モデルシステムが読者モデル行動に与える影響について検討する。
本稿では,500 MMLU-Pro 項目の固定コンテンツプローブについて紹介する。
各項目は、異なる談話ロールラベルの下で同じ誤解を招く答えを持つアサーションを受け取る。
GPT-5.5, DeepSeek V4 Pro, Llama-3-8B-Instruct, Qwen2.5-7B-Instruct, Misleading Adoption Rate shifts by 56-84%
論文 参考訳(メタデータ) (2026-06-02T18:12:57Z) - Human Label Variation as Stable Signal: Learning Annotator-Specific Explanation Behavior via Cross-Annotator Preference Optimization [51.93456979139756]
自由文の説明は、ラベルの不一致を超えて人間のラベルのバリエーションを拡大する。
このようなアノテータ固有のラベル説明動作を,大規模言語モデルで学習し,再現できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-05-27T17:55:00Z) - MLCBART: Multilabel Classification with Bayesian Additive Regression Trees [0.6117371161379209]
マルチラベル分類は、複数のバイナリラベルの同時分類を扱う。
BARTは、データ内の複雑な関係を明らかにすることができる非パラメトリックで柔軟なモデル構造である。
我々の適応であるMLCBARTは、ラベルが基礎となる数値スケールの閾値付けから生じると仮定する。
論文 参考訳(メタデータ) (2026-01-13T20:17:45Z) - Noise-Resistant Label Reconstruction Feature Selection for Partial Multi-Label Learning [3.635311806373203]
次元の急激さ」は様々なデータパターンにまたがって広まり、モデルオーバーフィットのリスクが増大し、モデル分類性能が低下する。
既存のPML(Partial Multi-label Learning)メソッドは、主に低ランクな仮定に基づいている。
本稿では,データセットの2つの重要な特徴を考慮したPML特徴選択手法を提案する。
論文 参考訳(メタデータ) (2025-06-05T06:31:04Z) - Label Denoising through Cross-Model Agreement [43.5145547124009]
ノイズのあるラベルを記憶することはモデルの学習に影響を与え、準最適性能をもたらす可能性がある。
雑音ラベルから堅牢な機械学習モデルを学習するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-27T00:31:04Z) - Category-Adaptive Label Discovery and Noise Rejection for Multi-label
Image Recognition with Partial Positive Labels [78.88007892742438]
部分正ラベル(MLR-PPL)を用いたマルチラベルモデルの訓練が注目されている。
これまでの研究では、未知のラベルを負とみなし、従来のMLRアルゴリズムを採用した。
我々は,MLR-PPLタスクを容易にするために,異なる画像間の意味的相関について検討する。
論文 参考訳(メタデータ) (2022-11-15T02:11:20Z) - Estimating the Uncertainty in Emotion Class Labels with
Utterance-Specific Dirichlet Priors [24.365876333182207]
本稿では,発話ごとのディリクレの事前分布に基づく新たな訓練損失を提案する。
ラベル付けの不確かさの高い試験発話を検出することで、さらなる測定値を用いて性能を評価する。
広く使われているIEMOCAPデータセットによる実験は、2分岐構造が最先端の分類結果を達成することを示した。
論文 参考訳(メタデータ) (2022-03-08T23:30:01Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - GRACE: Gradient Harmonized and Cascaded Labeling for Aspect-based
Sentiment Analysis [90.43089622630258]
本稿では、これらの問題を解決するために、GRACE(GRadient hArmonized and CascadEd labeling model)を提案する。
提案モデルでは,複数のベンチマークデータセットの整合性向上を実現し,最先端の結果を生成する。
論文 参考訳(メタデータ) (2020-09-22T13:55:34Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。