論文の概要: Creating Multilingual Mental Health Dialogue Datasets: Limits of Persona-Based Localization via Nationality and Language
- arxiv url: http://arxiv.org/abs/2606.19640v1
- Date: Wed, 17 Jun 2026 22:36:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.569777
- Title: Creating Multilingual Mental Health Dialogue Datasets: Limits of Persona-Based Localization via Nationality and Language
- Title(参考訳): 多言語メンタルヘルス・ダイアログ・データセットの作成:国籍と言語によるペルソナ・ローカライゼーションの限界
- Authors: Yunkai Xu, Saeed Abdullah,
- Abstract要約: AIと大規模言語モデル(LLM)は、世界的なメンタルヘルス問題に対処するための有望なツールとして登場した。
これらの課題のグローバルな性質にもかかわらず、そのようなシステムのトレーニングと評価には高品質なデータセットが不足している。
本稿では、類似のペルソナに基づく手法を用いて、多言語メンタルヘルスデータセットを作成できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 11.022811270374675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI and large language models (LLMs) have emerged as promising tools to address global mental health challenges. Despite the global nature of these challenges, there remains a critical shortage of high-quality datasets for training and evaluating such systems. To mitigate this gap, researchers increasingly generate synthetic clinical personas to simulate user data and test digital mental health support systems. However, most validated personas rely on English-centric contexts. This paper investigates whether similar persona-based methods can be used to generate multilingual mental health datasets. We modified nationality and language parameters in personas to generate clinical dialogues in Mandarin, Bengali, and Hindi. We then examined how different LLMs perform when evaluating the depression severity of these generated multilingual datasets against the baseline in English. Our findings indicate that just adding nationality and language parameters in personas might not be adequate, as it can introduce clinical inconsistency across languages. LLM judge models often exhibit inaccuracies in assessing depression severity in non-English texts, with performance varying across different models. This exposes the systemic limitations of applying English-centric personas to multilingual contexts. Ultimately, our work highlights the urgent need for culturally responsive data generation to ensure equitable mental health systems globally.
- Abstract(参考訳): AIと大規模言語モデル(LLM)は、世界的なメンタルヘルス問題に対処するための有望なツールとして登場した。
これらの課題のグローバルな性質にもかかわらず、そのようなシステムのトレーニングと評価には高品質なデータセットが不足している。
このギャップを緩和するために、研究者たちは、ユーザーデータをシミュレートし、デジタルメンタルヘルス支援システムをテストするために、ますます合成された臨床ペルソナを生成する。
しかし、ほとんどの検証されたペルソナは英語中心の文脈に依存している。
本稿では、類似のペルソナに基づく手法を用いて、多言語メンタルヘルスデータセットを作成できるかどうかを検討する。
我々は,マンダリン,ベンガル,ヒンディー語における臨床対話を生成するために,ペルソナの国籍と言語パラメータを変更した。
次に、これらの生成した多言語データセットのうつ病重症度を英語のベースラインに対して評価する際、LLMがどう機能するかを検討した。
以上の結果から,人格に国籍と言語パラメータを加えるだけでは不十分である可能性が示唆された。
LLMの判断モデルは、非英語のテキストでうつ病の重症度を評価するのに不正確であり、その性能は異なるモデルによって異なる。
これは多言語文脈に英語中心のペルソナを適用するという体系的な制限を露呈する。
最終的に、我々の研究は、世界中の平等なメンタルヘルスシステムを確保するために、文化的にレスポンシブなデータ生成を緊急に必要としていることを強調します。
関連論文リスト
- A Comprehensive Review of Datasets for Clinical Mental Health AI Systems [55.67299586253951]
本稿では,AIを活用した臨床アシスタントの訓練・開発に関連する臨床精神保健データセットの総合的調査を行う。
本調査では, 縦断データの欠如, 文化・言語表現の制限, 一貫性のない収集・注釈基準, 合成データのモダリティの欠如など, 重要なギャップを明らかにした。
論文 参考訳(メタデータ) (2025-08-13T13:42:35Z) - Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations [13.064927179032756]
MedAgentは、現実的で多ターンのメンタルヘルス・センスメイキングの会話を合成的に生成する新しいフレームワークである。
医療環境におけるLLMのマルチターン会話能力を評価するための総合的フレームワークであるMultiSenseEvalを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:42:02Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - A Survey on Multilingual Mental Disorders Detection from Social Media Data [19.167802086240293]
本研究は,多言語ソーシャルメディアデータを用いたメンタルヘルス障害の検出に関する第1回調査である。
オンライン言語パターンと自己開示行動に影響を与える文化的ニュアンスについて検討する。
メンタルヘルススクリーニングのためのNLPモデルの開発に使用できる多言語データ収集の包括的リストを提供する。
論文 参考訳(メタデータ) (2025-05-21T14:15:54Z) - Building Multilingual Datasets for Predicting Mental Health Severity through LLMs: Prospects and Challenges [3.0382033111760585]
大規模言語モデル(LLM)は、メンタルヘルス支援システムを含む様々な医療分野に統合されつつある。
本稿では、広く使われているメンタルヘルスデータセットを英語から6言語に翻訳した新しい多言語適応法を提案する。
このデータセットは、精神状態を検出し、複数の言語にわたる重症度を評価する上で、LLMのパフォーマンスを総合的に評価することを可能にする。
論文 参考訳(メタデータ) (2024-09-25T22:14:34Z) - How do Large Language Models Handle Multilingualism? [81.15060972112563]
本研究では,大規模言語モデル(LLM)が多言語モデルをどのように扱うかを検討する。
LLMはまずクエリを理解し、タスク解決のために多言語入力を英語に変換する。
中間層では、英語を思考に用い、自己意識とフィードフォワード構造を持つ多言語知識を取り入れている。
論文 参考訳(メタデータ) (2024-02-29T02:55:26Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。