論文の概要: Schützen: Evaluating LLM Safety in Bulgarian and German Contexts
- arxiv url: http://arxiv.org/abs/2606.11316v1
- Date: Tue, 09 Jun 2026 18:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-11 16:42:38.123232
- Title: Schützen: Evaluating LLM Safety in Bulgarian and German Contexts
- Title(参考訳): Schützen氏: ブルガリアとドイツの文脈でLLMの安全性を評価する
- Authors: Kiril Georgiev, Yuxia Wang, Dimitar Iliyanov Dimitrov, Preslav Nakov, Ivan Koychev,
- Abstract要約: 本稿では、リスク下でのモデル応答性を評価するために設計された、ドイツとブルガリアの安全データセットであるSchtzenを紹介する。
多言語および言語固有のLLMを用いた実験では、安全行動の言語間差が顕著である。
- 参考スコア(独自算出の注目度): 53.865251738592605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed across professional domains, bringing hard-to-predict risks, including the generation of harmful or disrespectful content. Although substantial progress has been made in developing safety evaluation datasets, existing resources remain overwhelmingly English- and Chinese-centric. This limitation is particularly pronounced when evaluating languages that operate within shared sociocultural, legal, and ethical contexts. To address this gap, we introduce Schützen: a German--Bulgarian safety dataset designed to assess model answerability under risk, covering both a low-resource language (Bulgarian) and a high-resource language (German). Experiments with multilingual and language-specific LLMs reveal pronounced cross-language differences in safety behavior, highlighting the necessity of tailored, region-specific evaluation resources to support the responsible deployment of LLMs in Germany and Bulgaria. Datasets and code are available at https://github.com/xnlp-lab/Schutzen. Warning: this paper contains examples that may be offensive, harmful, or biased.
- Abstract(参考訳): 大規模な言語モデルは、プロのドメインにまたがって展開され、有害なコンテンツや不敬なコンテンツの生成など、予測の難しいリスクをもたらしている。
安全性評価データセットの開発には大きな進歩があったが、既存の資源は英語と中国語が中心である。
この制限は、共有社会文化的、法的、倫理的文脈の中で機能する言語を評価するときに特に顕著である。
このギャップに対処するために、我々はSchützenを紹介します: ドイツ-ブルガリアの安全データセットは、リスク下でのモデル応答性を評価するために設計され、低リソース言語(ブルガリア語)と高リソース言語(ドイツ語)の両方をカバーする。
多言語および言語固有のLSMを用いた実験は、安全行動の言語間差異を明確に示し、ドイツとブルガリアにおけるLSMの責任ある展開を支援するために、調整された地域固有の評価リソースの必要性を強調している。
データセットとコードはhttps://github.com/xnlp-lab/Schutzen.comで入手できる。
警告: 本論文は、攻撃的、有害、偏見のある例を含む。
関連論文リスト
- Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Qorgau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts [40.0358736497799]
大規模言語モデル(LLM)は有害なコンテンツを生成する可能性があることが知られている。
本稿では,カザフ語とロシア語の安全性評価に特化して設計された新しいデータセットであるQorgauを紹介する。
論文 参考訳(メタデータ) (2025-02-19T11:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。