論文の概要: AnnotateThis: Analyzing a human-LLM system for annotating social media data with the concept of climate change mitigation pessimism
- arxiv url: http://arxiv.org/abs/2606.10210v1
- Date: Mon, 08 Jun 2026 22:03:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:37.967039
- Title: AnnotateThis: Analyzing a human-LLM system for annotating social media data with the concept of climate change mitigation pessimism
- Title(参考訳): AnnotateThis: 気候変動緩和悲観主義の概念を用いたソーシャルメディアデータアノテートのための人間-LLMシステムの解析
- Authors: Zexuan Li, Derek Van Berkel, Ariel Hasell, Grant Schoenebeck, John Barry Ryan, Sabina Tomkins,
- Abstract要約: 大規模言語モデル(LLM)は研究にますます統合されている。
LLMは、計算社会科学(CSS)研究で見られるような、困難で曖昧な概念に苦しむことが示されている。
LLMアノテーションを検査・改善するための人間中心システムAnnotateThisを開発した。
- 参考スコア(独自算出の注目度): 6.775474488255981
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly being integrated into research workflows. However, LLMs have been shown to struggle with difficult and nuanced concepts such as those found in computational social science (CSS) research. Within the CSS community, there has been a call for new systems to be developed which center humans in LLM-supported scientific workflows. We develop AnnotateThis, a human-centered system for inspecting and improving LLM annotations, a process we refer to as LLM grounding for a target concept. AnnotateThis is developed with both computational and social scientists to reflect existing workflows for data annotation. It includes a range of information features for users to interrogate the quality and reliability of LLM annotations. We evaluate our system in two settings. In the first, we assume a researcher may not have access to ground truth data and that users of AnnotateThis have limited prior knowledge of the concept they would like an LLM to annotate. That is, they may be conducting concept specification and LLM grounding simultaneously. In the second setting, we assume access to ground truth labels and that the concept is specified for a given annotation task; here, the task of LLM grounding is more straightforward. We find that in both settings users can improve the quality of LLM annotations with AnnotateThis and that their final annotations far surpass those created without human intervention. For example, when we evaluate with ground truth labels, we see an absolute improvement of 0.15 in F-Measure and 0.23 in accuracy over a fully automated state-of-the-art method for prompt refinement.
- Abstract(参考訳): 大規模言語モデル(LLM)は研究ワークフローに統合されつつある。
しかし、LSMは計算社会科学(CSS)研究で見られるような困難で曖昧な概念に苦しむことが示されている。
CSSコミュニティ内では、LLMが支援する科学ワークフローに人間を中心とする新しいシステム開発が求められている。
我々は,LLMアノテーションを検査・改善するための人間中心システムAnnotateThisを開発した。
AnnotateThisは計算科学者と社会科学者の両方で開発され、既存のデータアノテーションのワークフローを反映している。
LLMアノテーションの品質と信頼性を疑問視するための、さまざまな情報機能が含まれている。
システムを2つの設定で評価する。
まず、研究者は、基礎となる真理データにアクセスできない可能性があり、アノテーションの利用者は、LPMに注釈を付けたいという概念について、事前知識が限られていると仮定する。
つまり、彼らはコンセプト仕様とLLMを同時に実行しているかもしれない。
2つ目の設定では、基底の真理ラベルにアクセスし、その概念が与えられたアノテーションタスクに指定されていると仮定する。
どちらの設定でも、ユーザは AnnotateThis を使って LLM アノテーションの品質を向上させることができ、最終的なアノテーションは人間の介入なしに作成されたアノテーションをはるかに上回っている。
例えば、地上の真理ラベルで評価すると、F-Measureの0.15倍、精度0.23倍の絶対的な改善が達成される。
関連論文リスト
- A Methodological Guide on Using Large Language Models for Text Annotation in the Social Sciences and Humanities with Python and R [1.1372969798040315]
大規模言語モデル(LLM)は、社会科学や人文科学研究者にとって不可欠なツールとなっている。
本稿では,SSH 研究におけるテキストアノテーションに LLM を使用するための包括的,ステップバイステップの方法論的ガイドを提供する。
論文 参考訳(メタデータ) (2026-03-21T00:09:50Z) - Can We Hide Machines in the Crowd? Quantifying Equivalence in LLM-in-the-loop Annotation Tasks [8.246529401043128]
我々は、人間とLLMの両方によるラベル付け決定が、個人間で統計的に評価される方法について検討することを目指している。
Krippendorffの$alpha$, paired bootstrapping, and the Two One-Sided t-Tests (TOST) equivalence test procedureに基づく統計的評価法を開発した。
このアプローチをMovieLens 100K と PolitiFact という2つのデータセットに適用すると、LCM が前者の人間のアノテーションと統計的に区別できないことが分かる。
論文 参考訳(メタデータ) (2025-10-08T05:17:33Z) - Just Put a Human in the Loop? Investigating LLM-Assisted Annotation for Subjective Tasks [18.695435335031355]
複数のもっともらしい回答を持つ主観的アノテーションタスクでは、LCM出力のレビューはラベルの分布を変えることができる。
410種類のアノテーションと7000以上のアノテーションを用いた事前登録実験を行った。
その結果, LLM によるアノテーション提案をクラウドワーカーに提示することは, より迅速ではなく, 自己報告によるタスクへの信頼感を向上させることができた。
論文 参考訳(メタデータ) (2025-07-21T17:29:21Z) - Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation [96.18720164390699]
本稿では,大規模言語モデル (LLM) を用いた検索・検索・拡張生成システム (RAG) の訓練における文書ユーティリティのアノテートについて検討する。
以上の結果から,LLM生成アノテーションは,人間のアノテーションや下流QAメトリクスのみを訓練したモデルと比較して,ドメイン外検索性能の向上とRAG結果の改善を図っている。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。
我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。
このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文 参考訳(メタデータ) (2024-10-28T20:42:46Z) - Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring [21.7782670140939]
大規模言語モデル(LLM)は、構築された応答評価のための自動スコアリングを行う上で、強力な可能性を示している。
人間によってランク付けされた構築された応答は、通常、与えられた格付けされたルーリックに基づいているが、LSMがスコアを割り当てる方法はほとんど不明である。
本稿では,理科の課題に対する学生の書面回答と人間のスコアとの整合性を評価するために,LLMが用いたグレーディングルーブリックを明らかにする。
論文 参考訳(メタデータ) (2024-07-04T22:26:20Z) - Can Large Language Models Transform Computational Social Science? [79.62471267510963]
大規模言語モデル(LLM)は、(トレーニングデータなしで)ゼロショットで多くの言語処理タスクを実行することができる
この研究は、計算社会科学ツールとしてLLMを使用するためのロードマップを提供する。
論文 参考訳(メタデータ) (2023-04-12T17:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。