論文の概要: Sycophancy as a Multilingual Alignment Failure: How Safety Degrades Across Languages, Topics, and Models
- arxiv url: http://arxiv.org/abs/2606.08451v1
- Date: Sun, 07 Jun 2026 04:50:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-09 14:42:06.114283
- Title: Sycophancy as a Multilingual Alignment Failure: How Safety Degrades Across Languages, Topics, and Models
- Title(参考訳): 多言語アライメント障害としてのシクロファンシー: 言語、トピック、モデル間の安全性の低下について
- Authors: Arya Shah, Himanshu Beniwal, Mayank Singh, Chaklam Silpasuwanchai,
- Abstract要約: 安全に整合した大きな言語モデルでは、現実の正確性に関係なくユーザの意見を肯定する傾向がある。
テキストbf38言語とテキストbf33トピックカテゴリを対象とする,テキストbfsix命令調整モデルのベンチマークを行う。
- 参考スコア(独自算出の注目度): 3.2555924024638667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety-aligned large language models often exhibit sycophancy, which is the tendency to affirm users' opinions regardless of factual accuracy. Although well-studied in English, its manifestation in other languages remains largely unexamined, leaving billions of non-English speakers potentially vulnerable to model-validated misinformation. We present the first large-scale, multi-model evaluation of cross-lingual sycophancy, benchmarking \textbf{six instruction-tuned models} across \textbf{1.1 million instances} spanning \textbf{38 languages} and \textbf{33 topic categories}. We identify a consistent resource-tier effect: sycophancy rates spike sharply in low-resource and zero-shot language settings. Critically, this degradation is topic-agnostic, as models fail uniformly across both benign and safety-critical prompts, offering no additional protection where it is most needed. We further identify tokenizer fertility as a structural driver of this alignment collapse. Collectively, our results demonstrate that prevailing alignment methodologies generalize poorly beyond high-resource languages, underscoring the urgent need for equitable multilingual safety techniques.
- Abstract(参考訳): 安全に整合した大きな言語モデルでは、現実の正確性に関係なくユーザの意見を肯定する傾向がある。
英語でよく研究されているが、他の言語での表現はほとんど検討されておらず、何十億もの非英語話者が、モデル検証された誤報に弱い可能性がある。
本稿では, 言語間サイコファンシーの大規模マルチモデル評価を行い, テキストbf{1.1百万のインスタンスにまたがって, テキストbf{six命令調整モデルと, テキストbf{38の言語にまたがるトピックカテゴリをベンチマークした。
低リソースおよびゼロショット言語設定において、サイコフィナンシレートが急上昇する。
決定的に、この劣化はトピックに依存しない。モデルは良心的および安全クリティカルなプロンプトの両方で均一に失敗し、最も必要な場所で追加の保護は提供されない。
我々はさらに、このアライメント崩壊の構造的要因として、トークン化剤の施肥を同定する。
本研究は,多言語安全技術の必要性を浮き彫りにして,アライメント手法が高資源言語を超越した一般化を図ったものである。
関連論文リスト
- Why Do Safety Guardrails Degrade Across Languages? [21.521293656854183]
大規模な言語モデルは、英語以外の言語で安全性の低下を示す。
我々は、安全運転要因を分離する潜在変数モデル、多群項目応答理論(IRT)フレームワークを導入する。
5つの閉モデルファミリーと10の言語にまたがる61のモデル構成の安全性のロバスト性を評価する。
論文 参考訳(メタデータ) (2026-05-16T22:08:54Z) - All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG [87.74635133954975]
現在のマルチ言語検索・拡張生成システム(mRAG)は,再ランク付け時に言語バイアスに悩まされていることを示す。
textittextbfLanguage-textbfAgnostic textbfUtility-driven textbfReranker textbfAlignment (LAURA)を提案する。
論文 参考訳(メタデータ) (2026-04-22T05:33:06Z) - LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - Lost in Translation? A Comparative Study on the Cross-Lingual Transfer of Composite Harms [0.5376203747548287]
大きな言語モデル(LLM)のほとんどの安全性評価は、英語で固定されている。
いくつかの害は翻訳のほとんど無傷で生き残るが、他の害は歪んだり消えたりする。
翻訳ベースのベンチマークであるCompositeHarmを導入し、シンタックスとセマンティクスの両方のシフトが安全アライメントをどのように支えているかを検証した。
論文 参考訳(メタデータ) (2026-02-08T13:22:50Z) - Lingua-SafetyBench: A Benchmark for Safety Evaluation of Multilingual Vision-Language Models [54.10540442330978]
既存のベンチマークは、典型的にはマルチリンガルだがテキストのみ、あるいはマルチモーダルだがモノリンガルである。
近年の多言語的赤チームの取り組みは、画像に有害なプロンプトを与えるが、タイポグラフィースタイルの視覚に強く依存している。
10言語にまたがる100,440の有害な画像テキストペアのベンチマークを導入し、明示的に画像支配サブセットとテキスト支配サブセットに分割する。
論文 参考訳(メタデータ) (2026-01-30T09:18:13Z) - Conditions for Catastrophic Forgetting in Multilingual Translation [24.10629800866219]
多言語微調整における破滅的忘れを誘発する条件を同定する。
モデルとデータサイズの間の相対的なスケールは、忘れる際の主要な決定要因であることを示す。
また, 言語間アライメントは, 忘れを軽減し, 未確認対象言語への肯定的な移動を促進することも示している。
論文 参考訳(メタデータ) (2025-10-22T12:54:00Z) - Beyond the Final Layer: Intermediate Representations for Better Multilingual Calibration in Large Language Models [50.34755385896279]
大規模言語モデル(LLM)の信頼性確保には信頼度校正が不可欠である
6つのモデルファミリーと100以上の言語にまたがる多言語キャリブレーションの大規模かつ体系的な研究を行う。
非英語言語は体系的に悪い校正に苦しむ。
論文 参考訳(メタデータ) (2025-10-03T16:07:15Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context [0.9130277390156759]
アライメントチューニングにより、大きな言語モデルは、推論、命令追従、有害な世代を最小化できる。
広く展開されているにもかかわらず、これらのモデルはモノリンガルバイアスを示し、言語間のアライメントの有効性に関する懸念を提起する。
現在のアライメント手法は主に英語に重点を置いており、アライメント機構が多言語設定にどのように一般化するかははっきりしない。
論文 参考訳(メタデータ) (2025-04-03T15:46:46Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。