論文の概要: ClinicalAligner26AM: A Cross-Lingual Aligner for Dataset Translation; Evidences from the MultiClinCorpus Shared Task
- arxiv url: http://arxiv.org/abs/2606.08673v1
- Date: Sun, 07 Jun 2026 15:23:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.380818
- Title: ClinicalAligner26AM: A Cross-Lingual Aligner for Dataset Translation; Evidences from the MultiClinCorpus Shared Task
- Title(参考訳): ClinicalAligner26AM:MultiClinCorpus共有タスクからの証拠
- Authors: François Remy,
- Abstract要約: バイオメディカルテキストと臨床テキストのための大規模テキスト多言語コーディネータモデルである ClinicalAligner26AM について紹介する。
我々は,Sinkhorn-Knop の最適輸送により,平行臨床テキストに確立されたコスト行列を用いてソフトアライメントターゲットを構築した。
我々は、学習したトークンアライメント行列を通してソーススパンスコアを投影し、ターゲットテキスト中の最長の有効なハイスコアスパンをデコードする。
- 参考スコア(独自算出の注目度): 1.6904475483445454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word-level cross-lingual alignment is central to annotation projection, translation auditing, and cross-lingual faithfulness estimation, yet existing neural aligners are rarely adapted to specialized domains. In this paper, we introduce ClinicalAligner26AM, a large-context multilingual aligner model for biomedical and clinical text initialized from ClinicalEncoder26AM. Our training recipe is inspired by AWESoME Align. We build our soft alignment target by sharpening with Sinkhorn-Knop optimal transport a cost matrix established for parallel clinical texts and conversations through the fusion of sentence-level, phrase-level, and token-level signals. We distill this sharpened alignment matrix directly into our student aligner, by encouraging its naive cosine-based token similarity scores to match this target. At inference time, we project source-span scores through the learned token alignment matrix and decode the longest valid high-scoring span in the target text, optionally supported by MultiClinNER predictions summarized in Appendix B. We evaluate CA26AM on the MultiClinCorpus shared task, which projects Spanish clinical entity annotations into six target languages. Our two submitted systems ranked respectively first and second across all languages and entity types, with character-weighted F1 scores above 0.95 in nearly all settings.
- Abstract(参考訳): 単語レベルの言語間アライメントは、アノテーションの投影、翻訳監査、言語間アライメント推定の中心であるが、既存のニューラルアライメントは特別なドメインに適応することは滅多にない。
本稿では,CylyEncoder26AMを初期化したバイオメディカルテキストと臨床テキストのための多言語コーディネータモデルであるCylyAligner26AMを紹介する。
私たちのトレーニングレシピはAWESoME Alignにインスパイアされています。
我々は,Sinkhorn-Knopを用いて,文章レベル,フレーズレベル,トークンレベルの信号の融合を通じて,平行臨床テキストと会話のためのコスト行列を最適に搬送することで,ソフトアライメントターゲットを構築した。
我々は、この鋭いアライメント行列を生徒のアライメントに直接蒸留し、コサインベースのトークン類似度スコアをこの目標に合わせるように奨励する。
Inference time, project source-span scores through the learned token alignment matrix and decode the longest valid high-scoring span in the target text, optionly support by MultiClinNER predictions in Appendix B。
提案した2つのシステムは、すべての言語とエンティティタイプでそれぞれ第1位と第2位にランクされ、ほぼすべての設定で文字重み付きF1スコアが0.95以上であった。
関連論文リスト
- ClinicalEncoder26AM: A Multlilingual Diagnosable ColBERT Model; Evidences from the MultiClinNER Shared Task [1.6904475483445454]
ClinicalEncoder26AMは、臨床およびバイオメディカルテキストのための多言語診断可能なColBERTである。
患者症状, 障害, 手術スパンに対するBIOタグを微調整し, マルチClinNER共有タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2026-05-27T14:20:45Z) - ClinLinker: Medical Entity Linking of Clinical Concept Mentions in Spanish [39.81302995670643]
本研究は、医療エンティティリンクのための2相パイプラインを用いた新しいアプローチであるClinLinkerを提示する。
SapBERTベースのバイエンコーダに基づいており、その後クロスエンコーダで再ランクされ、スペインの医療概念に合わせた対照的な学習戦略に従って訓練されている。
論文 参考訳(メタデータ) (2024-04-09T15:04:27Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Multilingual LLMs are Better Cross-lingual In-context Learners with
Alignment [24.742581572364124]
インコンテキスト学習(ICL)は、大規模言語モデルが勾配更新なしでいくつかのラベル付きサンプルに条件付きテストラベルを推測できるようになり、展開される。
言語間テキスト分類のためのICLの詳細な分析を行う。
我々は新しいプロンプト・コンストラクション・ストラテジ--クロスランガルなインコンテキスト・ソース・ターゲットアライメント(X-InSTA)を提案する。
論文 参考訳(メタデータ) (2023-05-10T07:24:36Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [31.142790337451366]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。