論文の概要: Yuvion VL: A Multimodal Foundation Model for Adversarial Content and AI Safety
- arxiv url: http://arxiv.org/abs/2606.25034v1
- Date: Tue, 23 Jun 2026 18:00:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-25 17:05:30.107823
- Title: Yuvion VL: A Multimodal Foundation Model for Adversarial Content and AI Safety
- Title(参考訳): Yuvion VL: 敵対的コンテンツとAI安全性のためのマルチモーダルファンデーションモデル
- Authors: Shikai Qiu, Xiaowen Xu, Benlei Cui, Ting Ma, Xiufeng Huang, Wenjing Jiang, Shaoxuan He, Haolei Xu, Chunyang Chai, Yujian Li, Yiliang Zhang, Guanghui Wang, Ziheng Wang, Ziwen Xu, Zhaoyu Fan, Jinhao Chen, Ruijie Jian, Hongxing Li, Chuxi Xiao, Xinyue Chen, Wenxuan Liu, Libin Dong, Yupeng Cao, Xiaoqian Xia, Jing Wang, Zhe Jiang, Zhenan Ye, Guang Yang, Bin Liu, Wei Peng, Ziqiang Zhu, Meihui Lian, Kaiwen Lv Kacuila, Haidong Ding, Dongjie Zhang, Yangfan Zhou, Bingyu Zhu, Yan Wang, Hai Zhao, Xuan Jin, Wei Zhao, Pengfei Sun, Huiming Zhang, Wei Wang, Xipeng Cao, Bin Li, Chengwen Yao, Meng Huang, Xianfeng Li, Bin Tang, Chao Liu, Hui Xue, Longtao Huang, Haiwen Hong,
- Abstract要約: 汎用モデルは、しばしば実世界のマルチモーダルリスクを確実に識別し理解するのに苦労する。
我々は、コンテンツとAIの安全性のために構築されたマルチモーダルな大規模言語モデルのファミリーであるYuvion VLを紹介する。
- 参考スコア(独自算出の注目度): 73.67475847784357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose models often struggle to reliably identify and understand real-world multimodal risks, largely due to the inherent multimodal adversarial nature of content and AI safety. We present Yuvion VL, a family of multimodal large language models purpose-built for content and AI safety, with both instruction-tuned and reasoning-oriented variants. Yuvion VL addresses this gap by treating safety as an inherently adversarial and multimodal problem and designing the entire pipeline around adversarial robustness. For data construction, we develop an automated pipeline integrating adversarial-aware data synthesis with multi-stage quality control, producing large-scale, high-quality multimodal samples augmented with domain knowledge and reasoning annotations. For training, we adopt a three-stage pipeline that includes continued pretraining for risk-concept cross-modal alignment, instruct post-training for production-grade safety tasks, and reasoning post-training for enhanced interpretability and performance in complex tasks. We further introduce Confuse-then-Contrast Fine-Tuning, a contrastive framework that mines model-specific confusions and constructs multi-image contrastive groups to enforce explicit discrimination of fine-grained visual-semantic elements, enabling the model to distinguish between visually similar cases with different safety implications in adversarial safety tasks. To support rigorous evaluation, we further introduce Yuvion VL RiskEval (YVRE), a collection of benchmarks covering diverse open and internal evaluations, with a focus on content and AI safety, adversarial robustness, and real-world capability requirements. Experiments show that Yuvion VL-32B achieves industry-leading safety performance, surpassing comparably sized open-source models and best closed-source commercial models, while maintaining comparable general capabilities.
- Abstract(参考訳): 汎用モデルは、コンテンツとAIの安全性の本質的にのマルチモーダル対向性のために、現実のマルチモーダルリスクを確実に識別し理解するのに苦労することが多い。
我々は、コンテンツとAIの安全性のために構築されたマルチモーダルな大規模言語モデルのファミリーであるYuvion VLを紹介します。
ユビオンVLはこのギャップに対処し、安全を本質的に敵対的かつマルチモーダルな問題として扱い、対向的堅牢性を中心としたパイプライン全体を設計する。
データ構築のために,ドメイン知識と推論アノテーションを付加した大規模かつ高品質なマルチモーダルサンプルを生成する,対向認識データ合成と多段階品質制御を統合した自動パイプラインを開発する。
トレーニングには、リスクコンセプトのクロスモーダルアライメントのための継続的な事前トレーニング、プロダクショングレードの安全タスクのためのポストトレーニングの指示、複雑なタスクにおける解釈可能性とパフォーマンスの向上のためのポストトレーニングの推論を含む3段階のパイプラインを採用する。
さらに、モデル固有の混乱をマイニングし、マルチイメージのコントラストグループを構築して、細粒度の視覚的意味要素の明示的な識別を強制するコントラストフレームワークであるConfuse-then-Contrast Fine-Tuningを導入する。
厳格な評価をサポートするために、ユビオンVLリスクEval(YVRE)についても紹介する。これは、さまざまなオープンおよび内部評価をカバーし、コンテンツとAI安全性、敵の堅牢性、実世界の能力要件に焦点を当てたベンチマークである。
実験により、Yuvion VL-32Bは業界をリードする安全性能を達成し、比較可能なサイズのオープンソースモデルと最高のクローズドソース商用モデルを超えながら、同等の汎用性を維持していることが示された。
関連論文リスト
- VLMShield: Efficient and Robust Defense of Vision-Language Models against Malicious Prompts [63.54526809319117]
VLM(Vision-Language Models)は、視覚統合時のアライメントの弱さにより、悪意のあるプロンプト攻撃による重大な安全性上の脆弱性に直面している。
我々は,CLIPが長いテキストを処理し,マルチモーダル情報を統一表現に融合することを可能にするマルチモーダル集約特徴抽出フレームワークを提案する。
我々は,マルチモーダル攻撃をプラグ・アンド・プレイ・ソリューションとして効率的に識別する軽量安全検知器 VLMShield を開発した。
論文 参考訳(メタデータ) (2026-04-07T22:18:27Z) - Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming [64.48633529149579]
本稿では,VLA(Vision-Language-Action)モデルの言語的変異に対する脆弱性を明らかにするための新しいフレームワークを提案する。
本手法は, ストレス試験用VLAエージェントへのスケーラブルなアプローチを示すため, 平均作業成功率を93.33%から5.85%に下げる。
論文 参考訳(メタデータ) (2026-04-07T08:43:36Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。