論文の概要: Beyond English benchmarks: clinical llm evaluation in Brazilian Portuguese
- arxiv url: http://arxiv.org/abs/2606.07853v1
- Date: Fri, 05 Jun 2026 21:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:05.48625
- Title: Beyond English benchmarks: clinical llm evaluation in Brazilian Portuguese
- Title(参考訳): 英語ベンチマークを超えて:ブラジルポルトガル語の臨床llm評価
- Authors: Giordano de Pinho Souza, Glaucia Melo, Josefino Cabral Melo Lima, Daniel Schneider,
- Abstract要約: ブラジルの実際の症例報告から得られた臨床診断のための最初のバイリンガル・ベンチマークである ClinicalBr を紹介した。
コーパスには、28のSciELO医学雑誌から引き出された2,892の症例があり、18の専門分野にまたがっており、平行なポルトガル語と英語のペアとして構成されている。
両言語でMedGemma-27B,Sabi-4,DeepSeek-R1,o3-miniの4つのモデルを評価する。
- 参考スコア(独自算出の注目度): 2.1882805024604286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models are transforming the support for clinical decision and their application in real scenarios. Yet, most benchmarks are conducted in English, and cross-lingual evaluation is needed to tackle the language gaps in global access. We introduce ClinicalBr, the first bilingual benchmark for clinical decision built from real Brazilian case reports. The corpus contains 2,892 cases drawn from 28 SciELO medical journals, spanning 18 specialties, and is structured as parallel Portuguese-English pairs. Each case supports four evaluation tasks: diagnosis retrieval, differential diagnosis, exam recommendation, and treatment planning. We evaluate four models: MedGemma-27B, Sabiá-4, DeepSeek-R1, and o3-mini, across both languages. The central finding is that the Portuguese-English performance gap is task-dependent, not general. In diagnosis retrieval, English yields a consistent advantage across all models, with +7.5-12.1 accuracy points. This advantage disappears in differential diagnosis, exam recommendation, and treatment planning, where confidence intervals cross zero for most models and Portuguese completeness scores are marginally higher. Brazilian-endemic conditions proved easier than the full corpus, not harder, indicating that tropical presentations are adequately represented in current pre-training. Exam recommendation was the hardest task across all models and both languages, with F1 scores below 0.10, well below the differential diagnosis ceiling of 0.20-0.27.
- Abstract(参考訳): 大規模言語モデルは、臨床上の決定と実際のシナリオにおけるそれらの応用のサポートを変容させています。
しかし、ほとんどのベンチマークは英語で行われており、グローバルアクセスにおける言語ギャップに対処するためには言語間評価が必要である。
ブラジルの実際の症例報告から得られた臨床診断のための最初のバイリンガル・ベンチマークである ClinicalBr を紹介した。
コーパスには、28のSciELO医学雑誌から引き出された2,892の症例があり、18の専門分野にまたがっており、平行なポルトガル語と英語のペアとして構成されている。
各症例は、診断検索、鑑別診断、試験勧告、治療計画の4つのタスクをサポートする。
両言語でMedGemma-27B,Sabiá-4,DeepSeek-R1,o3-miniの4つのモデルを評価する。
中心的な発見は、ポルトガル語と英語のパフォーマンスギャップが全般ではなくタスクに依存していることである。
診断検索において、英語は+7.5-12.1の精度で全てのモデルに一貫した優位性をもたらす。
この利点は、ほとんどのモデルで信頼区間がゼロを超え、ポルトガルの完全度スコアが極端に高いという、鑑別診断、受験勧告、治療計画において消失する。
ブラジル・エンデミック・コンディションは完全なコーパスよりも容易であり、熱帯のプレゼンテーションが現在の事前訓練で適切に表現されていることを示している。
エクサム・レコメンデーションは、全てのモデルと両言語で最も難しいタスクであり、F1スコアは0.10以下であり、鑑定基準の0.20-0.27よりかなり低い。
関連論文リスト
- MADE: Beyond Scoring via a Multilingual Agentic Diagnosing Engine for Fine-Grained Evaluation Insights [29.06378695322803]
MADEは、評価後の分析を、計画、総合分析、事例レベルの事例検査、多言語および文化的反映、基礎レポートに分解する。
実験の結果、MADEは診断報告の品質が47%向上し、対比較の87.9%でヒトの多言語の専門家が好んでいる。
論文 参考訳(メタデータ) (2026-06-05T08:09:46Z) - Reliable Multilingual Orthopedic Decision Support from Clinical Narratives: Language-Aware Adaptation and Verification-Guided Deferral [0.0]
本稿では,英語,ヒンディー語,パンジャービ語で自由文正書法を分類するための信頼性指向フレームワークを提案する。
本研究では,タスク整列型多言語トランスフォーマーエンコーダ,タスク細調整型 DistilBERT ベースライン,ゼロショット命令調整型大言語モデル(LLM),ドメイン適応型エンコーダ IndicBERT-HPA を比較した。
論文 参考訳(メタデータ) (2026-05-29T16:30:45Z) - Prompting language influences diagnostic reasoning and accuracy of large language models [2.2338566701700233]
大規模言語モデル (LLMs) は, 臨床診断支援のために研究されている。
ほとんどの評価は英語で行われ、他の言語での信頼性は不確実である。
ここでは、英語とフランス語のパフォーマンスを比較することにより、言語が診断的推論と最終診断精度に与える影響を評価する。
論文 参考訳(メタデータ) (2026-05-18T22:55:21Z) - MedErrBench: A Fine-Grained Multilingual Benchmark for Medical Error Detection and Correction with Clinical Expert Annotations [4.451052650309736]
我々はMedErrBenchを紹介した。MedErrBenchは、エラー検出、ローカライゼーション、修正のための最初の多言語ベンチマークである。
MedErrBenchは10種類の一般的な誤りの分類に基づいて、英語、アラビア語、中国語をカバーしている。
その結果、特に英語以外の設定では、顕著なパフォーマンスのギャップが明らかとなった。
論文 参考訳(メタデータ) (2026-02-05T14:18:20Z) - SwasthLLM: a Unified Cross-Lingual, Multi-Task, and Meta-Learning Zero-Shot Framework for Medical Diagnosis Using Contrastive Representations [0.4077787659104315]
SwasthLLMは、医用診断のための統一、ゼロショット、クロスランガル、マルチタスク学習フレームワークである。
英語、ヒンディー語、ベンガル語で、言語固有の微調整を必要としない。
SwasthLLMは97.22%、F1スコア97.17%という高い診断性能を達成している。
論文 参考訳(メタデータ) (2025-09-24T21:20:49Z) - MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。
データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。
我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文 参考訳(メタデータ) (2025-05-16T22:34:36Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark [51.38557174322772]
中国初のバイオメディカル言語理解評価ベンチマークを提示する。
名前付きエンティティ認識、情報抽出、臨床診断正規化、単文/文対分類を含む自然言語理解タスクのコレクションである。
本研究は,現在の11種類の中国モデルによる実験結果について報告し,その実験結果から,現在最先端のニューラルモデルがヒトの天井よりもはるかに悪い性能を示すことが示された。
論文 参考訳(メタデータ) (2021-06-15T12:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。