論文の概要: When English Isn't the Best Teacher: Source Language Effects in Cross-Lingual In-Context Learning
- arxiv url: http://arxiv.org/abs/2606.18033v1
- Date: Tue, 16 Jun 2026 15:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-17 17:15:32.504545
- Title: When English Isn't the Best Teacher: Source Language Effects in Cross-Lingual In-Context Learning
- Title(参考訳): 英語が最良の教師でないとき--言語間インテクスト学習における原語の影響
- Authors: Fred Philippy, Siwen Guo, Jacques Klein, Tegawendé F. Bissyandé,
- Abstract要約: 多言語NLPにおける言語間移動は、教師付き微調整の文脈において広く研究されている。
フィールドが数ショットのIn-Context Learning(ICL)へとシフトするにつれて、微調整による洞察は変化しないと仮定されることが多い。
我々は,7つのタスク,6つのモデル,類型的に多様な言語群にまたがるICLにおける言語間移動に関する広範な実証的研究を行った。
- 参考スコア(独自算出の注目度): 11.937949915786719
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer in multilingual NLP has been widely explored in supervised fine-tuning contexts, where factors like data availability and linguistic similarity largely determine transfer quality. As the field shifts toward few-shot In-Context Learning (ICL), it is often presumed that insights from fine-tuning carry over unchanged. Yet this assumption has not been rigorously evaluated, leaving open the question of how to choose source languages for cross-lingual ICL. We conduct a broad empirical study of cross-lingual transfer in ICL spanning seven tasks, six models, and a typologically diverse set of languages. We further analyze language confusion, a key obstacle for generative tasks in cross-lingual ICL. Our results show that conventional fine-tuning-based expectations do not consistently apply in the ICL regime and point to alternative heuristics for selecting source languages effectively.
- Abstract(参考訳): 多言語NLPにおける言語間移動は、データ可用性や言語的類似性といった要因が伝達品質を決定する、教師付き微調整の文脈で広く研究されている。
フィールドが数ショットのIn-Context Learning(ICL)へとシフトするにつれて、微調整による洞察は変化しないと仮定されることが多い。
しかし、この仮定は厳密に評価されておらず、言語横断ICLのソース言語をどのように選択するかという疑問が残る。
我々は,7つのタスク,6つのモデル,類型的に多様な言語群にまたがるICLにおける言語間移動に関する広範な実証的研究を行った。
さらに,言語間ICLにおける生成課題の鍵となる言語混乱を解析する。
この結果から,従来の微調整による期待値がICL体制に一貫して適用されないこと,ソース言語を効果的に選択するための代替ヒューリスティックを指摘できることが示唆された。
関連論文リスト
- Quantifying Cross-Lingual Transfer in Paralinguistic Speech Tasks [4.911970211082446]
言語間の言語間相互作用を定量化するための体系的手法であるCLTM(Cross-Lingual Transfer Matrix)を提案する。
我々は,多言語HuBERTエンコーダを用いて,ジェンダー識別と話者検証という2つのパラ言語課題にCLTMを適用した。
この結果から,タスクや言語間の異なる伝達パターンが明らかとなり,言語に依存した系統的な影響が反映された。
論文 参考訳(メタデータ) (2026-03-09T11:02:57Z) - When Meanings Meet: Investigating the Emergence and Quality of Shared Concept Spaces during Multilingual Language Model Training [57.230355403478995]
本研究では,EuroLLMの事前学習における言語に依存しない概念空間の開発について検討する。
共有概念空間は早期に出現し、洗練され続けていますが、それらとの整合性は言語に依存しています。
従来の作業とは対照的に、細かな手作業分析により、翻訳品質の顕著な向上は、行動の変化を反映していることが判明した。
論文 参考訳(メタデータ) (2026-01-30T11:23:01Z) - LiveCLKTBench: Towards Reliable Evaluation of Cross-Lingual Knowledge Transfer in Multilingual LLMs [67.09110757873142]
言語間知識伝達の分離と計測を目的とした自動生成パイプラインであるLiveCLKTBenchを提案する。
我々のパイプラインは、実世界のドメインから自己完結した、時間に敏感な知識エンティティを識別する。
これらの有効なエンティティのドキュメントは、複数の言語に翻訳される事実的な質問を生成するために使用される。
論文 参考訳(メタデータ) (2025-11-03T17:06:49Z) - Code-Switching In-Context Learning for Cross-Lingual Transfer of Large Language Models [64.54005959758733]
我々は,コードスイッチング・イン・コンテキスト・ラーニング(CSICL)を,推論中の翻訳障壁を克服するための原則的かつ堅牢なアプローチとして導入する。
4つのLLM、6つのデータセット、10の言語にわたる広範な実験を行い、知識集約型ドメインと推論指向ドメインの両方にまたがる。
その結果、CSICLはX-ICLベースラインを一貫して上回り、ターゲット言語と見当たらない言語の両方で3.1%pと1.9%pを達成した。
論文 参考訳(メタデータ) (2025-10-07T08:35:42Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Balanced Multi-Factor In-Context Learning for Multilingual Large Language Models [53.38288894305388]
MLLM(Multilingual Large Language Model)は,言語間知識伝達をパラメータ更新なしで活用することにより,文脈内学習(ICL)を活用して高い性能を実現する。
1) 意味的類似性,(2) 言語的アライメント,(3) 言語固有のパフォーマンスの3つの要因が多言語ICLに影響を与える。
我々は,これらの因子を定量化し,最適にバランスをとる手法として,バランスの取れた多要素ICL(textbfBMF-ICL)を提案する。
論文 参考訳(メタデータ) (2025-02-17T06:56:33Z) - Analyzing the Effect of Linguistic Similarity on Cross-Lingual Transfer: Tasks and Experimental Setups Matter [5.237387600625361]
低リソース環境下でのNLPタスクのトレーニングデータ量を増やすために、言語間転送が一般的なアプローチである。
本研究では,263言語間の言語間移動を多種多様な言語群から分析する。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - Cross-Lingual Transfer Robustness to Lower-Resource Languages on Adversarial Datasets [4.653113033432781]
多言語言語モデル(MLLM)の言語間伝達能力について検討した。
本研究は,言語間移動とそのNLP応用への応用に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-03-29T08:47:15Z) - Cross-lingual QA: A Key to Unlocking In-context Cross-lingual Performance [2.371686365695081]
クロスランガルQAは、質問と回答の部分のみを翻訳し、翻訳コストを削減できる言語間プロンプト手法である。
4つのタイプ的多言語ベンチマークの実験により、クロスランガルQAはモデルに効果的に刺激を与え、クロスランガルの知識を引き出すことを示した。
本研究は,言語間実例を用いたオープンソースMLLMの高速化により,モデルスケールの増大に伴い,性能が向上することを示す。
論文 参考訳(メタデータ) (2023-05-24T15:14:49Z) - Cross-lingual Lifelong Learning [53.06904052325966]
本稿では,言語間連続学習(CCL)の評価パラダイムを提案する。
マルチリンガルなシーケンシャルな学習を特に難しいものにするための洞察を提供する。
この分析の意味は、異なる言語間連続学習のデシダータを測り、バランスをとる方法のレシピを含む。
論文 参考訳(メタデータ) (2022-05-23T09:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。