論文の概要: MMed-Bench-IR: A Heterogeneous Benchmark for Multilingual Medical Information Retrieval
- arxiv url: http://arxiv.org/abs/2606.24200v1
- Date: Tue, 23 Jun 2026 06:41:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.805525
- Title: MMed-Bench-IR: A Heterogeneous Benchmark for Multilingual Medical Information Retrieval
- Title(参考訳): MMed-Bench-IR:多言語医療情報検索のための異種ベンチマーク
- Authors: Junhyeok Lee, Han Jang, Hyeonjin Goh, Kyu Sung Choi,
- Abstract要約: 多言語医療検索には,言語横断アライメント,概念識別,エビデンス検索という3つの機能が必要である。
MMed-Bench-IRは、6つの言語と3つの構造的不均一なタスクにまたがってこれらの軸をアンタングルするように設計されたベンチマークである。
3つのタスクはゼロの概念を共有し、設計によってクエリオーバーラップし、アグリゲーションスコアが真の能力の幅を反映することを保証します。
- 参考スコア(独自算出の注目度): 2.0221473384338884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-augmented generation (RAG) in clinical settings increasingly requires multilingual retrieval against predominantly English evidence corpora. Multilingual medical retrieval demands three capabilities: cross-lingual alignment, concept discrimination, and evidence retrieval. However, existing benchmarks evaluate these only in isolation, leaving the interaction between biomedical expertise and multilingual coverage unmeasured. We introduce MMed-Bench-IR, a benchmark designed to disentangle these axes across 6 languages and three structurally heterogeneous tasks: (1) cross-lingual medical QA retrieval with 6,127 queries grounded in the Unified Medical Language System (UMLS), (2) concept discrimination over 4,975 confusion sets at three difficulty tiers, and (3) multilingual evidence retrieval for RAG with 2,040 quality-assured queries. The three tasks share zero concept and query overlap by design, ensuring that aggregate scores reflect genuine capability breadth. Evaluation of ten systems across six paradigm families reveals severe cross-lingual failure: biomedical encoders that score 0.818 nDCG@10 in English drop to 0.056 in Japanese, a gap that English-only benchmarks cannot detect.
- Abstract(参考訳): 臨床環境での検索増強世代(RAG)は、英語のエビデンスコーパスに対する多言語検索がますます求められている。
多言語医療検索には,言語横断アライメント,概念識別,エビデンス検索という3つの機能が必要である。
しかし、既存のベンチマークでは、これらは単独でのみ評価されており、バイオメディカルな専門知識と多言語的カバレッジの相互作用は未測定のままである。
MMed-Bench-IR(MMed-Bench-IR)は,(1)統一医療言語システム(UMLS)に根ざした6,127個のクエリによる言語間医療QA検索,(2)3つの難易度で4,975個の混乱セットに対する概念識別,(3)2,040個の品質保証クエリによるRAGの多言語的エビデンス検索,である。
3つのタスクはゼロの概念を共有し、設計によってクエリオーバーラップし、アグリゲーションスコアが真の能力の幅を反映することを保証します。
英語では0.818 nDCG@10のバイオメディカルエンコーダが0.056に低下し,英語のみのベンチマークでは検出できないギャップが生じた。
関連論文リスト
- The Multilingual Curse at the Retrieval Layer: Evidence from Amharic [49.25758237235551]
マルチリンガルベンチマークの強いゼロショットスコアは、現在のエンコーダが多くの言語で確実に転送される証拠としてしばしば考えられている。
この仮定は、表現が不十分で形態学的にリッチな言語に当てはまると我々は主張する。
我々は,ゼロショット多言語レトリバー,アンハリック細調整多言語レトリバー,単言語多言語レトリバーを比較した。
論文 参考訳(メタデータ) (2026-05-23T12:44:30Z) - JMedEthicBench: A Multi-Turn Conversational Benchmark for Evaluating Medical Safety in Japanese Large Language Models [47.20100799532625]
JMedEthicBenchは,大規模言語モデルの医療安全性を評価するための,最初のマルチターン対話型ベンチマークである。
デュアルLLMスコアリングプロトコルを用いて27のモデルを評価し,医療特化モデルでは脆弱性が増大するのに対して,商業モデルは堅牢な安全性を維持していることを確認した。
論文 参考訳(メタデータ) (2026-01-04T18:18:18Z) - MedRECT: A Medical Reasoning Benchmark for Error Correction in Clinical Texts [0.0]
大規模言語モデル (LLM) は医療応用における将来性を示すが, 臨床用テキストにおける誤りの検出と訂正能力は, 未評価のままである。
我々は,医療ミス処理を3つのサブタスクとして定式化する言語間ベンチマーク(日本語/英語)であるMedRECTを紹介する。
プロプライエタリ、オープンウェイト、理性家族にまたがる9つの現代LSMを評価した。
論文 参考訳(メタデータ) (2025-11-01T06:19:34Z) - Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system [5.7880565661958565]
本研究では,日本におけるHealthBenchの適用性について検討した。
日本語の資源は乏しく、翻訳された複数の質問から構成されることが多い。
論文 参考訳(メタデータ) (2025-09-22T07:36:12Z) - Multi-OphthaLingua: A Multilingual Benchmark for Assessing and Debiasing LLM Ophthalmological QA in LMICs [3.1894617416005855]
大型言語モデル(LLM)は、様々な眼科手術を自動化するための有望なソリューションを提供する。
LLMは、自然言語の問合せタスクにおいて、様々な言語で顕著に異なる性能を示してきた。
本研究は,複数言語にまたがる質問を手作業でキュレートした,最初の多言語眼科的質問答えベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-18T20:18:03Z) - Towards Building Multilingual Language Model for Medicine [54.1382395897071]
6つの主要言語を含む約25.5Bトークンを含む多言語医療コーパスを構築した。
MMedBench と呼ばれる有理性を持つ多言語医療用多言語質問応答ベンチマークを提案する。
我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、MMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-02-21T17:47:20Z) - A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [57.88111980149541]
Asclepiusは、Med-MLLMの異なる医学的特長と診断能力で評価する、新しいMed-MLLMベンチマークである。
3つの基本原則に基づいて、アスクレピウスは15の医療専門分野を包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、3人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。