論文の概要: IndicGuard: A Multilingual Safety Guard Model and Dataset for Indic Languages
- arxiv url: http://arxiv.org/abs/2606.22841v1
- Date: Mon, 22 Jun 2026 04:36:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 04:09:53.428175
- Title: IndicGuard: A Multilingual Safety Guard Model and Dataset for Indic Languages
- Title(参考訳): IndicGuard: 言語の多言語安全ガードモデルとデータセット
- Authors: Parth Bramhecha, Smit Deshmukh, Sairaj Bodhale, Adwait Borate, Raviraj Joshi,
- Abstract要約: IndicGuardは、Indic言語のための多言語安全ガードモデルとデータセットである。
我々は10の主要なインド語を含む高ボリュームで文化的にニュアンスのある安全データセットを構築した。
Gemma-3-4B-ITをベースとした4Bパラメータ命令調整モデルを微調整し,多言語安全ガードレールとして機能させる。
- 参考スコア(独自算出の注目度): 2.584263027095689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) achieve widespread integration across diverse linguistic landscapes, ensuring their safety and alignment with regional normative values remains a critical challenge. Current safety mechanisms are predominantly optimized for English-centric frameworks, often failing to capture the unique socio-cultural sensitivities and localized categories of harm inherent to the Indic region. To address this gap, we introduce IndicGuard, a multilingual safety guard model and dataset for Indic languages. We construct a high-volume, culturally nuanced safety dataset encompassing ten major Indic languages, systematically curated to capture regional harms, sensitive socio-political contexts, and adversarial jailbreaks. Leveraging this corpus, we fine-tune a 4B-parameter instruction-tuned model based on Gemma-3-4B-IT to serve as a multilingual safety guardrail for real-time content moderation and policy compliance checking. Our empirical evaluations demonstrate that IndicGuard significantly enhances LLM robustness against localized vulnerabilities, achieving high moderation consistency across different conversational turns. Crucially, IndicGuard consistently outperforms the existing baseline model, CultureGuard, across evaluated languages. Finally, we demonstrate that our model effectively generalizes to low-resource Indic languages excluded from training, substantiating the structural robustness and cross-lingual transfer capabilities of the framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様な言語環境にまたがって広範な統合を実現しているため、その安全性と地域規範値との整合性を保証することは依然として重要な課題である。
現在の安全メカニズムは、主に英語中心のフレームワークに最適化されており、しばしば、固有の社会文化的感受性と、インド地域固有の害の局所的なカテゴリーを捉えることに失敗している。
このギャップに対処するために、多言語安全ガードモデルとIndic言語データセットであるIndicGuardを紹介します。
我々は,10の主要言語を含む高量かつ文化的にニュアンスのある安全データセットを構築し,地域的危害,センシティブな社会的・政治的文脈,敵対的ジェイルブレイクを体系的にキュレートした。
このコーパスを活用することで,Gemma-3-4B-ITをベースとした4Bパラメータの命令調整モデルを微調整し,リアルタイムコンテンツモデレーションとポリシーコンプライアンスチェックのための多言語安全ガードレールとして機能する。
実験により, IndicGuard は局所脆弱性に対する LLM の堅牢性を著しく向上し,会話の異なるターン間で高いモデレーション整合性を実現することを示した。
重要なことに、IndicGuardは既存のベースラインモデルであるCultureGuardを評価言語で一貫して上回っている。
最後に,本モデルが学習から除外された低リソースのIndic言語に効果的に一般化し,フレームワークの構造的ロバスト性や言語間移動能力を実証することを示した。
関連論文リスト
- Schützen: Evaluating LLM Safety in Bulgarian and German Contexts [53.865251738592605]
本稿では、リスク下でのモデル応答性を評価するために設計された、ドイツとブルガリアの安全データセットであるSchtzenを紹介する。
多言語および言語固有のLLMを用いた実験では、安全行動の言語間差が顕著である。
論文 参考訳(メタデータ) (2026-06-09T18:01:19Z) - Multilingual Safety Alignment via Self-Distillation [17.94152626632751]
大規模言語モデル (LLM) は、重度の多言語的安全性のミスアライメントを示す。
マルチリンガル自己蒸留(Multilingual Self-Distillation:MSD)という,言語横断型セーフガード転送フレームワークを提案する。
私たちのフレームワークは柔軟で、さまざまな自己蒸留戦略に統合できます。
論文 参考訳(メタデータ) (2026-05-03T14:22:49Z) - Multilingual Refusal Alignment for Safer Large Language Models [53.64286756804503]
単言語アライメントが言語横断的に伝達されるか,トレーニング中に言語一貫性が保たれるか,一般的な知識能力とのトレードオフが生じるかを検討する。
RefusEUは、12のヨーロッパ言語をカバーする新しい拒絶アライメントデータセットであり、現在の最先端モデルを評価するための専用のテストセットを含む。
制御された直接選好最適化(DPO)実験は、2つの重要な洞察を提供する: 英語でのみモデルを整列することは、同じハーネスカテゴリであっても、言語間安全を保証するには不十分である。
論文 参考訳(メタデータ) (2026-04-24T09:29:14Z) - LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety [88.98698230989186]
大規模言語モデル(LLM)は、しばしば高リソース言語で強力な安全性性能を示すが、低リソース言語では深刻な脆弱性を示す。
このギャップは、言語に依存しない意味理解能力と、高リソース言語に偏った言語に支配的な安全アライメントのミスマッチによるものと考えられる。
セマンティック・アライメント(LASA)を提案し,セマンティック・ボトルネックに直接安全アライメントを固定する。
論文 参考訳(メタデータ) (2026-04-13T15:59:50Z) - Bridging the Multilingual Safety Divide: Efficient, Culturally-Aware Alignment for Global South Languages [8.667909336164465]
大規模言語モデル(LLM)がグローバル・サウスに展開されている。
日々の使用には、低リソース言語、コードミキシング、文化的に特定の規範が含まれる。
我々の目標は、多言語安全性を、未表現領域における適切なAIのアドオンではなく、コア要件とすることです。
論文 参考訳(メタデータ) (2026-02-14T19:56:40Z) - UbuntuGuard: A Culturally-Grounded Policy Benchmark for Equitable AI Safety in African Languages [18.40701733030824]
現在のガーディアンモデルは、主に西洋中心で、高リソース言語に最適化されている。
我々はUbuntuGuardを紹介した。これは155のドメインエキスパートによって書かれた敵クエリから構築された、アフリカ初のポリシーベースの安全ベンチマークだ。
論文 参考訳(メタデータ) (2026-01-19T03:37:56Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。