論文の概要: RELIANCE: Curating and Evaluating Reproductive Health Information on Social Media
- arxiv url: http://arxiv.org/abs/2606.18285v1
- Date: Wed, 10 Jun 2026 04:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-18 17:16:50.790696
- Title: RELIANCE: Curating and Evaluating Reproductive Health Information on Social Media
- Title(参考訳): Reliance:ソーシャルメディア上での生殖保健情報のキュレーションと評価
- Authors: Vaibhav Balloli, Laura Peyton Ellis, Vishala Mishra, Alice Chi, Alex Peahl, Elizabeth Bondi-Kelly,
- Abstract要約: 妊娠と産後問合せを取り巻くTikTokの健康情報の専門家によるデータセットであるRELIANCEを紹介する。
その結果、サンプルにしたビデオの健康情報の60%近くが正確であることが判明した。
LLM評価は、特定のクレームの評価とコンテンツ全体の評価のギャップを明らかにする。
- 参考スコア(独自算出の注目度): 5.470110238068877
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Social media platforms like TikTok have become a key source of health information, with studies reporting inaccuracies in posts. As Large Language Model (LLM) providers increasingly integrate LLMs into digital platforms to fact-check content (e.g., Grok and Perplexity on X and WhatsApp, respectively) and are being used by people to fact-check information, deploying these systems in critical areas such as reproductive health without rigorous evaluation can cause serious harm. We introduce RELIANCE, an expert-annotated dataset of health information on TikTok surrounding pregnancy and postpartum queries, serving as both an analysis of the reproductive health information landscape and an evaluation of LLMs' capabilities in fact-checking this content. Our dataset comprises 409 annotated sentences from 336 videos across 56 clinician-reviewed queries, annotated by three expert clinicians in Obstetrics, Gynecology, and Internal Medicine. Our findings reveal that nearly 60\% of the health information in the videos we sampled is accurate. Furthermore, LLM evaluations reveal a gap between evaluating specific claims and evaluating the entire content (15\%). We believe that our methodology, dataset, and tool will support the machine learning community in improving LLMs for important domains with real-world data, extending to other platforms and languages, and helping the health community further understand the information landscape on social media. Our dataset and code are made available at https://realize-lab.github.io/RELIANCE/.
- Abstract(参考訳): TikTokのようなソーシャルメディアプラットフォームは、不正確な投稿を報告する研究によって、健康情報の主要な情報源となっている。
大規模言語モデル(LLM)プロバイダは、コンテンツ(例えば、XとWhatsAppのGrokやPerplexityなど)をファクトチェックするために、デジタルプラットフォームにLSMを組み込んで、情報をファクトチェックするために人々が使用しているため、厳格な評価をすることなく、生殖健康などの重要な領域にこれらのシステムをデプロイすることは深刻な害を被る可能性がある。
本稿では,TikTokを囲む妊娠と産後質問に対する健康情報の専門家によるデータセットであるRELIANCEを紹介する。
本データセットは,56件のクリニカルレビューを対象とし,336件の動画から409件の注釈文を収録し,産婦人科,内科の専門医3名に注釈を付した。
その結果、サンプルにしたビデオの健康情報の60%近くが正確であることが判明した。
さらに, LLM 評価では, 特定のクレームの評価とコンテンツ全体の評価の差が 15 % であることが明らかとなった。
我々は、我々の方法論、データセット、ツールが機械学習コミュニティを支援し、現実世界のデータを持つ重要なドメインのLLMを改善し、他のプラットフォームや言語に拡張し、健康コミュニティがソーシャルメディアの情報ランドスケープをより理解できるようにすると信じている。
私たちのデータセットとコードはhttps://realize-lab.github.io/RELIANCE/で公開されています。
関連論文リスト
- Enhancing the Medical Context-Awareness Ability of LLMs via Multifaceted Self-Refinement Learning [49.559151128219725]
大規模言語モデル(LLM)は医療分野で大きな可能性を示しており、いくつかのベンチマークで高いパフォーマンスを実現している。
しかし、実際の医療シナリオではパフォーマンスが低下し続けており、コンテキスト認識の強化が要求されることが多い。
データ駆動型アプローチであるMultifaceted Self-Refinement (MuSeR)を提案する。
論文 参考訳(メタデータ) (2025-11-13T08:13:23Z) - MedFact: A Large-scale Chinese Dataset for Evidence-based Medical Fact-checking of LLM Responses [15.147733422773777]
MedFactは、大規模な言語モデル(LLM)が生成する医療コンテンツの、最初の証拠に基づく中国の医療ファクトチェックデータセットである。
1,321の質問と7,409のクレームで構成され、現実世界の医療シナリオの複雑さを反映している。
論文 参考訳(メタデータ) (2025-09-22T07:26:47Z) - How Much Content Do LLMs Generate That Induces Cognitive Bias in Users? [13.872175096831343]
大規模言語モデル(LLM)は、レビュー要約から診断支援まで、アプリケーションにますます統合されている。
我々は,LLMがユーザの偏りのあるコンテンツをいつ,どのように公開するかを調査し,その重大度を定量化する。
以上の結果から, LLMは症例の21.86%で文脈の感情を変化させるコンテンツにユーザをさらけ出し, 57.33%の症例において, 覚醒後のデータ質問に幻覚を与え, 5.94%の症例でプライマリーバイアスを呈していた。
論文 参考訳(メタデータ) (2025-07-03T21:56:44Z) - LLMEval-Med: A Real-world Clinical Benchmark for Medical LLMs with Physician Validation [58.25892575437433]
医学における大規模言語モデル (LLMs) の評価は, 医療応用には精度が高く, 誤差の少ないため重要である。
LLMEval-Medは、5つの中核医療領域をカバーする新しいベンチマークであり、現実の電子健康記録から得られた2,996の質問と専門家が設計した臨床シナリオを含む。
論文 参考訳(メタデータ) (2025-06-04T15:43:14Z) - Fact or Guesswork? Evaluating Large Language Models' Medical Knowledge with Structured One-Hop Judgments [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし、適用する能力は、まだ探索されていない。
標準化された語彙と知識グラフの包括的なリポジトリであるUMLS(Unified Medical Language System)から派生したデータセットであるMKJ(Messical Knowledge Judgment dataset)を紹介する。
バイナリ分類フレームワークを通じて、MKJは、簡潔なワンホップ文の妥当性を評価することによって、LCMが基本的な医学的事実を把握できることを評価する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - How well do LLMs cite relevant medical references? An evaluation
framework and analyses [18.1921791355309]
大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
論文 参考訳(メタデータ) (2024-02-03T03:44:57Z) - Integrating UMLS Knowledge into Large Language Models for Medical
Question Answering [18.06960842747575]
大規模言語モデル(LLM)は強力なテキスト生成能力を示し、医療分野に前例のない革新をもたらした。
我々は、医療コミュニティにより良いサービスを提供することを目的として、UMLS(Unified Medical Language System)に基づく拡張LLMフレームワークを開発する。
ベンチマークモデルとしてLLaMa2-13b-chatとChatGPT-3.5を採用し、LiveQAテストセットから104の質問に対してROUGEスコアとBERTScoreを用いて自動評価を行う。
論文 参考訳(メタデータ) (2023-10-04T12:50:26Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Med-MMHL: A Multi-Modal Dataset for Detecting Human- and LLM-Generated
Misinformation in the Medical Domain [14.837495995122598]
Med-MMHLは、複数の疾患を含む一般的な医療領域において、新しいマルチモーダルな誤情報検出データセットである。
本データセットは,各種疾患および各種シナリオにおける誤情報検出手法の総合的な研究・開発を促進することを目的としている。
論文 参考訳(メタデータ) (2023-06-15T05:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。