論文の概要: Muse Spark Safety & Preparedness Report
- arxiv url: http://arxiv.org/abs/2606.12429v1
- Date: Thu, 14 May 2026 23:12:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.89155
- Title: Muse Spark Safety & Preparedness Report
- Title(参考訳): Muse Spark Safety and Preparedness Report
- Authors: Cristina Menghini, Peter Ney, Hamza Kwisaba, Zifan, Wang, Miles Turpin, Felix Binder, Jean-Christophe Testud, Aidan Boyd, Nathaniel Li, Ivan Evtimov, Klaudia Krawiecka, Arman Zharmagambetov, Jeremy Kritz, Alexander R. Fabbri, Daniel Song, Jinpeng Miao, Joonas Hjelt, Meghna Ramani, Leona Lan, Reza Aghajani, Joanna Bitton, Mahesh Pasupuleti, Devin Norder, Khalid El-Arini, Paridhi Singh, Vítor Albiero, Sahana CB, Rashnil Chaturvedi, Elahe Dabir, Edoardo Debenedetti, Jim Gust, Ziwen Han, Kat He, Sean Hendryx, Lifeng Jin, Polina Kirichenko, Sandra Lefdal, Kenneth Li, Asad Liaqat, Inna Lin, Despoina Magka, Neal Mangaokar, Ishita Mediratta, Zach Miller, Smitha Milli, Niloofar Mireshghallah, Saba Nazir, Hung Nguyen, Maximilian Nickel, Kelvin Niu, Kerem Oktar, Bhargavi Paranjape, Parth Pathak, Maya Pavlova, Emmanuel Ramirez, David Renardy, Candace Ross, Yasha Sheynin, Claudia Shi, Shivam Singhal, Evangelia Spiliopoulou, Rakshith Sharma Srinivasa, Jamelle Watson-Daniels, Spencer Whitman, Adina Williams, Chen Xing, Andy Zou, Tommy Ma, Siqi Deng, James Beldock, Prashant Ratanchandani, Kate Plawiak, Taesung Lee, Ryan Victory, Lindsay Hundley, Rachad Alao, Himaghna Bhattacharjee, Jianfeng Chi, Gary Frost, Pegah Ghahremani, Niki Howe, Yuheng Huang, Saeed Jahed, Hannah Korevaar, Trang Le, Zhe Liu, Jinghong Luo, Qin Lyu, Nina Mehrabi, Abraham Montilla, Chirag Nagpal, Cyrus Nikolaidis, Rajvardhan Oak, Manoj Ravi, Vidya Sarma, Aman Shankar, Alana Shine, Eric Michael Smith, Mariana Tandon, Michael Tontchev, Caoyu Wang, Zihan Wang, Corinne Wong, Zheng Wu, Hongyuan Zhan, Justin Zhao, Zexuan Zhong, Chengxu Zhuang, Tristan Goodman, Ayaz Minhas, Harrison Rudolph, Victoria Jeffries, Ingrid Dickinson, Alex Vaughan, Lauren Deason, Kamalika Chaudhuri, Julian Michael, Shengjia Zhao, Summer Yue,
- Abstract要約: Muse SparkはMetaが開発した最新の大規模言語モデルだ。
われわれはまず,MetaのAdvanced AI Scaling Frameworkの下で破滅的なリスクドメインの評価を行った。
次に、Muse Sparkの広範なコンテンツ安全性や行動プロファイルなど、さらなる考慮事項について論じる。
- 参考スコア(独自算出の注目度): 106.21435337776768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Muse Spark is the latest large language model developed by Meta. In this report, we first present evaluations for catastrophic risk domains under Meta's Advanced AI Scaling Framework, along with the evidence that informed our launch decision. We then discuss additional considerations, such as Muse Spark's broader content safety and behavioral profile, that are relevant to overall safety but fall outside the catastrophic risk domains governed by the Framework. Our preparedness results covering Chemical and Biological, Cybersecurity, and Loss of Control risks assess Muse Spark's deployment within Meta AI as presenting acceptable levels of residual risks under our Advanced AI Scaling Framework. We conducted a broad set of evaluations targeting dual-use and high-risk capabilities across these catastrophic risk domains. Those evaluations identified elevated risks prior to mitigations, with Chemical and Biological capabilities assessed as likely reaching the "high risk" category under the Advanced AI Scaling Framework before safeguards were applied. We have implemented a multi-layered set of mitigations that address the identified risks, and Muse Spark demonstrates state-of-the-art refusal across a range of benchmarks related to hazardous workflows in chemistry and biology. We therefore release Muse Spark as the underlying model of Meta AI.
- Abstract(参考訳): Muse SparkはMetaが開発した最新の大規模言語モデルだ。
本稿では,Metaの高度なAIスケーリングフレームワーク(Advanced AI Scaling Framework)の下で,破滅的なリスクドメインの評価を行った。
次に、Muse Sparkの広範なコンテンツ安全性と行動プロファイルなど、全体的な安全性に関連するが、フレームワークが管理する破滅的なリスクドメインの外にある、追加の考慮事項について論じる。
化学、生物学、サイバーセキュリティ、制御損失のリスクをカバーした準備結果では、Meta AI内のMuse Sparkのデプロイメントを、Advanced AI Scaling Frameworkの下で許容される残留リスクレベルとして評価しています。
これらの破滅的なリスクドメインにまたがって、両用および高リスク機能を対象とした幅広い評価を行った。
これらの評価では、予防措置が適用される前に、Advanced AI Scaling Frameworkの下で「高いリスク」のカテゴリに到達する可能性があると評価された。
Muse Sparkは、化学物質や生物学における有害なワークフローに関連するさまざまなベンチマークにおいて、最先端の拒絶を実証しています。
そのため、Meta AIの基盤モデルとしてMuse Sparkをリリースしています。
関連論文リスト
- ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI [38.70363180741332]
ForesightSafety Bench"は、最先端AIモデルの安全性評価フレームワークである。
このベンチマークでは、数万の構造化されたリスクデータポイントと評価結果が蓄積されている。
このベンチマークに基づいて,20以上の主流大規模モデルの系統的評価と詳細な解析を行う。
論文 参考訳(メタデータ) (2026-02-15T13:12:44Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - The Role of Risk Modeling in Advanced AI Risk Management [33.357295564462284]
急速に進歩する人工知能(AI)システムは、新しい、不確実で、潜在的に破滅的なリスクをもたらす。
これらのリスクを管理するには、厳格なリスクモデリングの基盤となる成熟したリスク管理インフラストラクチャが必要です。
先進的なAIガバナンスは、同様の二重アプローチを採用するべきであり、検証可能な、確実に安全なAIアーキテクチャが緊急に必要である、と私たちは主張する。
論文 参考訳(メタデータ) (2025-12-09T15:37:33Z) - SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。