論文の概要: CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment
- arxiv url: http://arxiv.org/abs/2606.15396v1
- Date: Sat, 13 Jun 2026 16:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-16 16:21:33.548484
- Title: CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment
- Title(参考訳): CHILLGuard: スケーラブルなデータ構築とモデル対応の優先度アライメントを備えた中国のLLM安全ガードレールを目指して
- Authors: Wenbo Yu, Bohua Wang, Hao Fang, Kuofeng Gao, Jingru Zeng, Xiaochen Yang, Tianyi Zhang, Xiaoxiao Ma, Jiawei Kong, Hao Wu, Bin Chen, Shu-Tao Xia, Min Zhang,
- Abstract要約: 大きな言語モデル(LLM)から生成された悪意のあるコンテンツは、深刻な安全リスクと倫理的懸念を引き起こす可能性がある。
既存のLLMの安全ガードレールは英語や多言語の設定では優れているが、中国固有の規制政策、文化的文脈、言語的ニュアンスには適応していない。
我々は,中国のシナリオに対して,5マクロ,31マイクロカテゴリの細粒度リスク分類を導入し,中国向けLLMコンテンツ安全ガードレールであるCHILLGuardを構築した。
- 参考スコア(独自算出の注目度): 55.74660714572696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious content generated from large language models (LLMs) could pose severe safety risks and ethical concerns. While existing LLM safety guardrails excel in English or multilingual settings, they lack adaptation to Chinese-specific regulatory policies, cultural context and linguistic nuances, failing to support fine-grained risk classification for diverse deployment needs. In this paper, we introduce a 5-macro, 31-micro category fine-grained risk taxonomy for Chinese scenarios, and build CHILLGuard: a dedicated Chinese LLM content safety guardrail. To address the critical scarcity of high-quality annotated Chinese safety data, we propose a scalable multi-stage data construction pipeline: we expand multi-source corpus via retrieval-augmented generation, generate implicit harmful samples through prompt engineering rewriting, and refine high-quality data via multi-model voting-based label calibration. Based on this, we build CHILLGuardTrain, a large-scale training set with 405,007 samples, and CHILLGuardTest, a rigorously curated annotated test set with 51,745 samples. We then train CHILLGuard on CHILLGuardTrain under a generator-classifier collaborative framework via Model-aware Direct Preference Optimization. Extensive experiments under multiple settings demonstrate the state-of-the-art performance of CHILLGuard, e.g., a 15.92% improvement of F1 score over Qwen3Guard-8B-Strict on our benchmark. We will release our resources at https://github.com/cswbyu/CHILLGuard.
- Abstract(参考訳): 大きな言語モデル(LLM)から生成された悪意のあるコンテンツは、深刻な安全リスクと倫理的懸念を引き起こす可能性がある。
既存のLLM安全ガードレールは英語や多言語設定で優れているが、中国固有の規制政策、文化的文脈、言語的ニュアンスへの適応は欠如しており、多様な展開ニーズに対するきめ細かいリスク分類をサポートしていない。
本稿では,中国のシナリオを対象とした5マクロ31マイクロカテゴリーの細粒度リスク分類を導入し,中国向けLLMコンテンツ安全ガードレールであるCHILLGuardを構築した。
高品質なアノテートされた中国の安全データの重要な不足に対処するため,我々は,検索拡張生成によるマルチソースコーパスの拡大,迅速なエンジニアリングリライトによる暗黙的な有害サンプルの生成,マルチモデル投票に基づくラベルキャリブレーションによる高品質データの改良など,スケーラブルな多段階データ構築パイプラインを提案する。
これに基づいて、405,007サンプルの大規模なトレーニングセットであるCHILLGuardTrainと51,745サンプルの厳格にキュレートされたアノテートテストセットであるCHILLGuardTestを構築した。
次に、CHILLGuardTrain上のCHILLGuardを、モデル認識の直接参照最適化を介して、ジェネレータと分類器の協調フレームワークで訓練する。
Qwen3Guard-8B-Strictよりも15.92%のF1スコアが向上した。
私たちはリソースをhttps://github.com/cswbyu/CHILLGuard.comでリリースします。
関連論文リスト
- ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models [69.0361356103553]
ML-Benchはポリシーベースで14の言語をカバーする多言語安全ベンチマークである。
ML-Bench上に構築したML-Guardは多言語安全判断とポリシー条件付きコンプライアンスアセスメントをサポートするガードレールモデルである。
論文 参考訳(メタデータ) (2026-05-01T14:24:14Z) - Libra: Large Chinese-based Safeguard for AI Content [25.10798349240114]
大規模言語モデル(LLM)はテキストの理解と生成に優れるが、高度なアプリケーションでは安全性と倫理上の懸念を生じさせる。
我々は,中国のLLMの安全性を高めるために,最先端の安全保護システムであるLibra-Guardを紹介する。
また,中国コンテンツに対するセーフガードシステムの有効性を評価するために設計された最初のベンチマークであるLibra-Testを紹介する。
論文 参考訳(メタデータ) (2025-07-29T15:45:50Z) - SEALGuard: Safeguarding the Multilingual Conversations in Southeast Asian Languages for LLM Software Systems [9.469589800082597]
本稿では,多言語間の安全性向上を目的とした多言語ガードレールであるSEALGuardを紹介する。
既存のガードレールの多言語的安全アライメントギャップに対処し、安全でないプロンプトと脱獄プロンプトを効果的にフィルタリングすることを目的としている。
10言語で260,000以上のプロンプトを含む大規模多言語安全アライメントデータセットであるSEALSBenchを構築した。
論文 参考訳(メタデータ) (2025-07-11T05:15:35Z) - RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - DuoGuard: A Two-Player RL-Driven Framework for Multilingual LLM Guardrails [12.621656255109546]
本稿では,多言語ガードレール学習のための高品質な合成データを生成するために,ジェネレータとガードレールモデルが逆方向に共進化する新しい2要素強化学習フレームワークを提案する。
実験により、我々のモデルは最先端モデルよりも優れており、LlamaGuard3よりも10%近く改善されていることが示された。
論文 参考訳(メタデータ) (2025-02-07T18:45:03Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。