論文の概要: Code-Switching Reveals Language Anchoring in Multilingual LLMs
- arxiv url: http://arxiv.org/abs/2606.19668v1
- Date: Thu, 18 Jun 2026 00:42:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-19 18:23:39.591231
- Title: Code-Switching Reveals Language Anchoring in Multilingual LLMs
- Title(参考訳): 多言語LLMにおける言語アンカリングのコードスイッチング
- Authors: Jeonghyun Park, Seunghyun Yoon, Yonghyun Jun, Hwanhee Lee,
- Abstract要約: 混合言語は、ソースまたはターゲット言語のモノリンガルと比較すると、しばしば性能を低下させる。
言語アンカーを定量化する指標であるAnchor Biasを紹介する。
CANVASは入力からソース側キャンバスを抽出し、プリフィル中にターゲット言語隠れ状態からソースアンカーに向かってソフトにステアリングする。
- 参考スコア(独自算出の注目度): 17.177056898525894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual Large Language Models (MLLMs) are increasingly expected to handle Code-Switched (CS) inputs, yet mixing languages frequently degrades performance relative to source- or target-language monolingual counterparts. To understand this degradation, we use grammar-forced CS as a controlled diagnostic setting for locating CS representations relative to their source and target counterparts. We introduce Anchor Bias, a geometric measure that quantifies language anchoring, whether a CS hidden state aligns closer to its source or target language counterpart. Across diverse MLLMs, Anchor Bias reveals a consistent grammar-frame effect: source-framed CS stays source-anchored, whereas target-framed CS shifts target-ward and shows larger Question Answering (QA) degradation. Motivated by this representational pattern, we propose CANVAS (Contextual Anchor-based Neural Vector Alignment Steering), an inference-time intervention that extracts a source-side canvas from the input and softly steers target-language hidden states toward the source anchor during prefill. CANVAS consistently recovers QA F1 across MLLMs and CS conditions, showing that internal anchoring signals provide an actionable target for mitigating CS inference failures.
- Abstract(参考訳): MLLM(Multilingual Large Language Models)は、コードスイッチド(CS)入力を扱うことがますます期待されているが、混合言語はソースまたはターゲット言語のモノリンガルに対するパフォーマンスを劣化させることが多い。
この劣化を理解するために、我々は、CS表現のソースとターゲットとを対応付けるための制御された診断設定として、文法強化CSを使用します。
Anchor Biasは,CSの隠蔽状態がそのソースに近いか,あるいはターゲット言語に近いか,といった,言語のアンカリングを定量化する幾何学的尺度である。
ソースフレームのCSはソースアンコールされるが、ターゲットフレームのCSはターゲット方向にシフトし、質問応答(QA)がより大きくなる。
この表現パターンを取り入れたCANVAS(Contextual Anchor-based Neural Vector Alignment Steering)を提案する。これは入力からソース側キャンバスを抽出し、プリフィル中のソースアンカーに向かってターゲット言語隠れ状態をソフトに操る推論時介入である。
CANVASは、MLLMとCS条件をまたいだQA F1を継続的に回復し、内部アンカー信号がCS推論障害を緩和するための実行可能なターゲットを提供することを示した。
関連論文リスト
- Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints [0.0]
データリッチなソース言語で事前トレーニングされた言語間の数ショット転送は、スケーラブルな代替手段を提供する。
コンパクトな20次元交叉角記述子を中心にした幾何認識型距離学習フレームワークを提案する。
これらの角度はSO(3)の回転、変換、等方スケーリングと不変であり、データセット間のシフトの主源を排除している。
論文 参考訳(メタデータ) (2026-03-10T05:31:46Z) - Language Drift in Multilingual Retrieval-Augmented Generation: Characterization and Decoding-Time Mitigation [11.110312833458421]
複数のデータセット,言語,LLMのバックボーンにまたがる多言語RAGにおける出力言語ドリフトについて検討した。
実験の結果,デコーダレベルの崩壊によるドリフトの結果が明らかとなり,そこではトークン分布が支配的であり,高頻度の英文パターンが意図された生成言語を支配下に置くことがわかった。
そこで本研究では,対象言語を優雅に操る軽量でトレーニング不要なデコーディング戦略であるSoft Constrained Decoding (SCD)を提案する。
論文 参考訳(メタデータ) (2025-11-13T05:36:31Z) - Languages are Modalities: Cross-Lingual Alignment via Encoder Injection [0.8461674097042394]
本稿では、トークン化器を変更したり、デコーダを再訓練したりすることなく、命令調整されたデコーダを条件とした効率的な言語・モダリティ手法を提案する。
LLINKはバイリンガル検索を大幅に改善し、ベースモデルよりも81.3%の嗜好を得る。
改良は, トークン化インフレーションの低減と, より強いクロスリンガルアライメントに起因することが判明した。
論文 参考訳(メタデータ) (2025-10-31T07:43:21Z) - Language steering in latent space to mitigate unintended code-switching [1.1330938617817454]
大きな言語モデル(LLM)は意図しないコードスイッチングを示し、下流タスクの信頼性を低下させる。
並列翻訳におけるPCAによる言語方向を識別する軽量な推論時間法である潜在空間言語ステアリングを提案する。
提案手法は,計算オーバーヘッドの少ないセマンティクスを保ちながら,コードスイッチングを緩和する。
論文 参考訳(メタデータ) (2025-10-11T19:49:38Z) - Mechanistic Understanding and Mitigation of Language Confusion in English-Centric Large Language Models [56.61984030508691]
言語混乱に関する最初の機械論的解釈可能性研究について述べる。
混乱点(CP)がこの現象の中心であることを示す。
比較分析によって同定された少数の臨界ニューロンを多言語で調整したニューロンで編集すると、混乱が著しく軽減されることがわかった。
論文 参考訳(メタデータ) (2025-05-22T11:29:17Z) - Northeastern Uni at Multilingual Counterspeech Generation: Enhancing Counter Speech Generation with LLM Alignment through Direct Preference Optimization [1.1368382184602488]
対音声の自動生成は,構築的および情報的応答を提供することにより,ヘイトスピーチに対処するための重要な戦略である。
既存の手法は、高品質でインパクトがあり、スケーラブルなCSを生成するのに失敗することが多い。
本稿では,大規模言語モデル (LLM) をスーパーバイザード・ファインチューニング (SFT) と直接選好最適化 (DPO) で整列させることによりCS生成を向上させる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T23:22:11Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Examining Scaling and Transfer of Language Model Architectures for
Machine Translation [51.69212730675345]
言語モデル(LM)は単一のレイヤのスタックで処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。
機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。
論文 参考訳(メタデータ) (2022-02-01T16:20:15Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。