論文の概要: UOL@IDEM at BEA 2026 Shared Task 1: Neural Fusion and Feature-Rich Modeling for L1-Aware Vocabulary Difficulty Prediction
- arxiv url: http://arxiv.org/abs/2606.24501v1
- Date: Tue, 23 Jun 2026 12:30:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-24 22:16:48.942432
- Title: UOL@IDEM at BEA 2026 Shared Task 1: Neural Fusion and Feature-Rich Modeling for L1-Aware Vocabulary Difficulty Prediction
- Title(参考訳): UOL@IDEM at BEA 2026 Shared Task 1: Neural Fusion and Feature-Rich Modeling for L1-Aware Vocabulary Difficulty Prediction
- Authors: Nouran Khallaf, Serge Sharoff,
- Abstract要約: 本稿では, BEA 2026 の L1-aware vocabulary difficulty 予測タスクに対する UOL@IDEM のクローズトトラック提案について述べる。
我々は、このタスクを回帰としてモデル化し、スペイン語、ドイツ語、マンダリン中国語の別系統を訓練する。
本システムは,多言語文脈表現と,周波数,表面形状,検索証拠,セマンティックアライメント,コグネート類似性,マスク付き言語モデル予測可能性などの特徴を結合する。
- 参考スコア(独自算出の注目度): 1.9746060146273674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes UOL@IDEM's closed-track submission to the BEA 2026 shared task on L1-aware vocabulary difficulty prediction. We model the task as regression and train separate systems for Spanish, German, and Mandarin Chinese\footnote{Below we use \emph{Chinese} for brevity.}. Our system combines multilingual contextual representations with engineered features capturing frequency, surface form, retrieval evidence, semantic alignment, cognate similarity, and masked-language-model predictability. Development results show consistent gains over the official closed-track baselines, with sentence-embedding encoders such as BGE-M3, multilingual E5, and LaBSE performing best. Official submissions achieve RMSE scores of 1.132, 1.037, and 0.891 for Spanish, German, and Chinese, respectively. Feature analysis identifies frequency as the most stable predictor, while contextual predictability, form similarity, retrieval, and semantic features provide complementary L1-sensitive signals. Error analysis shows strong ranking performance but weaker calibration for the easiest items, which are often overpredicted. See https://github.com/Nouran-Khallaf/UoL-IDEM-BEA2026-Vocabulary-Difficulty-Prediction
- Abstract(参考訳): 本稿では, BEA 2026 の L1-aware vocabulary difficulty 予測タスクに対する UOL@IDEM のクローズトトラック提案について述べる。
タスクを回帰としてモデル化し、スペイン語、ドイツ語、マンダリン中国語の異なるシステムを訓練する。
と。
本システムは,多言語文脈表現と,周波数,表面形状,検索証拠,セマンティックアライメント,コグネート類似性,マスク付き言語モデル予測可能性などの特徴を結合する。
BGE-M3,多言語E5,LaBSEなどの文埋め込みエンコーダが最適である。
公式の提出は、それぞれスペイン語、ドイツ語、中国語のRMSEスコア1.132、1.037、0.891を達成している。
特徴分析は、周波数を最も安定な予測器として認識する一方で、文脈的予測可能性、形態的類似性、検索、意味的特徴は相補的なL1感受性信号を提供する。
エラー分析は、しばしば過大評価される最も簡単な項目のランク付け性能は高いが、キャリブレーションが弱いことを示している。
https://github.com/Nouran-Khallaf/UoL-IDEM-BEA2026-Vocabulary-Difficulty-Prediction
関連論文リスト
- GemDetox at TextDetox CLEF 2025: Enhancing a Massively Multilingual Model for Text Detoxification on Low-resource Languages [32.22353317193898]
PAN 2025 Multilingual Text Detoxification Challengeについて述べる。
パラメータ効率のよいLoRA SFT微調整を施し、少数ショットやチェーン・オブ・サートのような技法を推し進める。
当社のシステムは、まず、高リソースおよび低リソース言語にランク付けする。
論文 参考訳(メタデータ) (2025-09-24T10:06:40Z) - Prompt-Based Simplification for Plain Language using Spanish Language Models [0.6299766708197881]
本稿では,LearS 2025 Subtask 1: Adaptation of Text to Plain Language (PL) in Spanishについて述べる。
我々は、プロンプトエンジニアリングを用いたゼロショット構成やローランド適応(LoRA)を用いた微調整版など、スペイン語のテキストで訓練されたモデルに基づく戦略を探求した。
最終的なシステムはバランスよく一貫した性能で選択され、正規化ステップ、RigoChat-7B-v2モデル、PL指向のプロンプトが組み合わされた。
論文 参考訳(メタデータ) (2025-09-21T19:28:37Z) - Text to Band Gap: Pre-trained Language Models as Encoders for Semiconductor Band Gap Prediction [9.325818199739759]
本稿では,半導体材料のバンドギャップを予測するために,RoBERTa,T5,Llama-3,MatSciBERTなどのトランスフォーマーベース言語モデルについて検討する。
入力は、化学組成、結晶系、空間群、その他の構造的および電子的性質などの重要な材料特性を符号化する。
論文 参考訳(メタデータ) (2025-01-07T00:56:26Z) - SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。
SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。
SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-11-25T03:13:08Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - AI-UPV at IberLEF-2021 DETOXIS task: Toxicity Detection in
Immigration-Related Web News Comments Using Transformers and Statistical
Models [0.0]
我々は,Webニュース記事に対するコメントにおいて,xenophobiaを検出するための正確なモデルを実装した。
我々はF1スコア0.5996で第1タスク2オフィシャルランキング3位を獲得し、CEM0.7142で第2タスク2オフィシャルランキング6位を獲得した。
その結果, (i) BERTモデルはテキストコメントにおける毒性検出の統計モデルよりも優れた結果が得られること, (ii) 単言語BERTモデルはテキストコメントにおける毒性検出における多言語BERTモデルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T14:24:21Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - NEMO: Frequentist Inference Approach to Constrained Linguistic Typology
Feature Prediction in SIGTYP 2020 Shared Task [83.43738174234053]
タイプ的特徴間の相関関係を表現するために頻繁な推論を用い、この表現を用いて、個々の特徴を予測する単純なマルチクラス推定器を訓練する。
テスト言語149言語に対して,マイクロ平均精度0.66を達成できた。
論文 参考訳(メタデータ) (2020-10-12T19:25:43Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - Nearest Neighbor Machine Translation [113.96357168879548]
我々は、$k$-nearest-neighbor machine translation(k$NN-MT)を紹介する。
キャッシュされたサンプルの大きなデータストア上で、最も近い隣の分類器でトークンを予測する。
多くの設定で一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-10-01T22:24:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。