論文の概要: SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning
- arxiv url: http://arxiv.org/abs/2606.22873v1
- Date: Mon, 22 Jun 2026 05:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 03:56:52.95387
- Title: SingGuard: A Policy-Adaptive Multimodal LLM Guardrail with Dynamic Reasoning
- Title(参考訳): SingGuard:動的推論によるポリシー適応型マルチモーダルLLMガードレール
- Authors: SingGuard Team,
- Abstract要約: マルチモーダル会話における安全評価のためのポリシー適応型ガードレールモデルファミリーである textbfSingGuard を提案する。
SingGuardはアクティブポリシーをランタイム入力として扱う。
ターゲットコンテンツをアクティブポリシールールに対してルールでチェックし、安全ラベルとトリガルールの両方を予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are increasingly deployed in consumer, medical, financial, and enterprise applications. This broad deployment expands the safety surface: risks can arise from multimodal question answering, assistant responses, and cross-modal composition, while moderation policies may vary across products, regions, and deployment stages. Most existing guardrails either rely on fixed taxonomies or target only a narrow set of interaction settings, which limits their adaptability when safety rules change at deployment time. We present \textbf{SingGuard}, a policy-adaptive multimodal guardrail model family for safety assessment in multimodal conversations. SingGuard treats the active policy as a runtime input: given natural-language rules, it checks the target content against the active policy rule by rule and predicts both the safety label and the triggered rule. To balance efficiency and interpretability, SingGuard supports fast, hybrid, and slow inference regimes along a fast-to-slow reasoning spectrum, ranging from direct safety judgments to policy-grounded deliberation. We further optimize this behavior with fast--slow decoupled reinforcement learning. We also introduce \textbf{SingGuard-Bench}, a multimodal guardrail benchmark with 56{,}340 examples spanning 80+ fine-grained risk types across multimodal QA, adversarial attack, and dynamic-rule evaluation settings, including cross-modal joint-risk cases where each modality is harmless in isolation but their composition implies unsafe intent. Across six benchmark families (35 datasets), SingGuard achieves state-of-the-art average F1 in every family. Dynamic-rule evaluation further shows improved policy-following accuracy from 0.6465 to 0.7415 under runtime policy shifts. Our code is available at https://github.com/inclusionAI/Sing-Guard.
- Abstract(参考訳): ヴィジュアル言語モデル(VLM)は、消費者、医療、金融、エンタープライズアプリケーションにますます多くデプロイされている。
リスクはマルチモーダルな質問応答、アシスタント応答、およびクロスモーダルな構成から生じます。一方、モデレーションポリシーは製品、リージョン、デプロイメントステージによって異なります。
既存のガードレールの多くは、固定された分類に依存しているか、限られた一連のインタラクション設定のみをターゲットにしているため、デプロイ時に安全ルールが変更される場合、適応性を制限する。
政策適応型マルチモーダルガードレールモデルファミリーである‘textbf{SingGuard} を,マルチモーダル会話における安全性評価のために提案する。
SingGuardは、アクティブポリシーをランタイム入力として扱う: 自然言語ルールが与えられたら、ターゲットのコンテンツがアクティブポリシールールに対してルールによってチェックされ、安全ラベルとトリガールールの両方を予測する。
効率性と解釈可能性のバランスをとるため、SingGuardは高速でハイブリッドで遅い推論規則を高速からスローの推論スペクトルに沿ってサポートしている。
高速な非結合型強化学習により、この挙動をさらに最適化する。
また、56{,}340例のマルチモーダルガードレールベンチマークである‘textbf{SingGuard-Bench}も導入した。
6つのベンチマークファミリ(35データセット)にわたって、SingGuardは、各ファミリで最先端の平均F1を達成する。
動的ルール評価はさらに、実行時ポリシーシフト時のポリシーフォロー精度を0.6465から0.7415に改善した。
私たちのコードはhttps://github.com/inclusionAI/Sing-Guard.comで利用可能です。
関連論文リスト
- LPG: Balancing Efficiency and Policy Reasoning in Latent Policy Guardrails [41.04710068888387]
我々は,動的政策に関する世俗的な潜在政策検討を学習するガードレールフレームワークである潜在政策ガードレール(LPG)を紹介した。
政策ガードレールのベンチマークでは、LPG-4Bの平均安全性は84.5%、F1は77.9%に達した。
論文 参考訳(メタデータ) (2026-05-17T08:35:38Z) - Selective Safety Steering via Value-Filtered Decoding [54.87935112120107]
大型言語モデル(LLM)は人間の価値観に合わせるように訓練されているが、その世代は安全上の制約に反する可能性がある。
既存のデコード時のステアリング手法は、しばしば不要に介入し、ベースモデルの下で安全であった世代を変更する。
安全でない応答の安全性を向上しつつ、そのような不要な介入を減らすための新しいテストタイムステアリング手法を提案する。
論文 参考訳(メタデータ) (2026-05-14T12:13:08Z) - ADV-0: Closed-Loop Min-Max Adversarial Training for Long-Tail Robustness in Autonomous Driving [63.980630608984605]
本稿では、ゼロサムマルコフゲームとして、駆動ポリシー(ディフェンダー)と敵エージェント(アタックラー)の相互作用を扱うクローズドループのmin-max最適化フレームワークであるADV-0を提案する。
これを実現するため,我々は動的敵の進化を反復的な選好学習とし,この最適性を効率的に近似し,アルゴリズムに依存しない解をゲームに提供する。
実験により、多様な安全クリティカルな障害を効果的に露呈し、学習方針と運動プランナーの両方の一般化可能性を大幅に向上させることが示されている。
論文 参考訳(メタデータ) (2026-03-16T12:58:31Z) - Towards Policy-Adaptive Image Guardrail: Benchmark and Method [21.041111216560545]
ヴィジュアル言語モデル(VLM)は動的安全ガードレールのより適応的で一般化可能な基盤を提供する。
既存のVLMベースの保護方法は、通常、固定された安全ポリシーのみの下で訓練され、評価される。
本稿では,ロバストなアンセーフイメージガードレールに対する報酬を検証可能な強化学習ベース手法であるSafeGuard-VLを紹介する。
論文 参考訳(メタデータ) (2026-03-01T18:59:21Z) - SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization [79.14563283347773]
マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
論文 参考訳(メタデータ) (2025-11-17T05:09:49Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability [101.80200069234377]
COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
論文 参考訳(メタデータ) (2025-10-05T13:30:03Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - GuardSet-X: Massive Multi-Domain Safety Policy-Grounded Guardrail Dataset [18.306944278068638]
ここでは、最初の大規模マルチドメイン安全ポリシー付きガードレールデータセットであるGuardSet-Xを紹介する。
GuardSet-Xは金融、法律、CodeGenといった8つのセーフティクリティカルドメインにまたがる広範なドメインカバレッジを提供する。
先進的なガードレールモデル19をベンチマークし、一連の結果を明らかにした。
論文 参考訳(メタデータ) (2025-06-18T01:35:33Z) - SAGE: A Generic Framework for LLM Safety Evaluation [7.5058318880108885]
SAGE(Safety AI Generic Evaluation)は、カスタマイズおよび動的害評価のための自動モジュール化フレームワークである。
我々は3つのアプリケーションにまたがる7つの最先端の大規模言語モデルと有害ポリシーを評価した。
結果は、より安全な現実世界のデプロイメントのための適応性、ポリシー対応、コンテキスト固有のテストに動機付けます。
論文 参考訳(メタデータ) (2025-04-28T11:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。