ML基础 | 一文详解正态分布(附python实现)
磐创AI正态分布简介

你听说过钟形曲线吗?它往往是全球人们讨论最多的话题之一。很长一段时间以来,钟形曲线决定了对员工的专业评估,可以是一个受人喜爱或令人恐惧的话题,而这取决于与谁交谈!看看这张图片:

你认为曲线的形状意味着什么?作为一个数据科学家(或一个有抱负的科学家),你应该能够马上回答这个问题。在许多其他应用中,钟形曲线背后的思想是正态分布。正态分布是统计学的核心概念,是数据科学的支柱。在进行探索性数据分析时,我们首先探索数据,而目的是找出其概率分布,对吗?猜猜看,最常见的概率分布是什么?就是正态分布。看看这三个非常常见的正态分布示例:



你可以清楚地看到,出生体重、智商得分和股价回报率往往形成一个钟形曲线。同样,还有许多其他的社会和自然数据集遵循正态分布。正态分布对数据科学家来说变得至关重要的另一个原因是中心极限定理,这个定理解释了数学的魔力,是假设检验的基础。中心极限定理:https://www.analyticsvidhya.com/blog/2019/05/statistics-101-introduction-central-limit-theorem/?utm_source=blog&utm_medium=statistics-data-science-normal-distribution在本文中,我们将了解正态分布的意义和不同性质,以及如何使用这些性质来检查数据的正态性。目录正态分布的性质正态分布的经验法则什么是标准正态分布?熟悉偏态分布左偏分布右偏分布如何检验分布的正态性直方图KDE图Q_Q图偏度峰度实现和理解正态分布的Python代码正态分布的性质


我们称这条钟形曲线为正态分布,卡尔·弗里德里希·高斯发现了它,所以有时我们也把它称为高斯分布。我们只需使用两个参数即可简化正态分布的概率密度:平均值