然而并没有什么东西┑( ̄Д  ̄)┍

0%

[ML]基础知识(1)数据的中心:众数、平均数和中位数

万事开头难,然后中间难,最后结尾难

平均数(Mean)

平均数(Mean)、均值是统计中的一个重要概念。为集中趋势的最常用测度值,目的是确定一组数据的均衡点。
算术平均数(或简称平均数)是一组样本X1,X2,…,Xn的和除以样本的数量。

在统计中算术平均数常用于表示统计对象的一般水平,它是描述数据集中程度的一个统计量。我们既可以用它来反映一组数据的一般情况,也可以用它进行不同组数据的比较,以看出组与组之间的差别。用平均数表示一组数据的情况,有直观、简明的特点

“ 范围 ” 用于数值型数据,不能用于分类数据和顺序数据

平均值对异常值非常敏感,有异常值的情况,平均值向异常值方向偏移。

中位数(Median)

中位数,统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。

对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,则中位数不唯一,通常取最中间的两个数值的平均数作为中位数。

当数据中存在异常值时,中位数最适合用作衡量中心的指标。因为中位数不会受到极小或大的观测值的影响。

众数(mode)

众数指一组数据中出现次数最多的数据值。例如{2,3,3,3}中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。

在统计学上,众数和平均数、中位数类似,都是总体或随机变量有关集中趋势的重要资讯。在在高斯分布(正态分布)中,众数位于峰值,和平均数、中位数相同。但若分布是高度偏斜分布,众数可能会和平均数、中位数有很大的差异。

该模式对异常值也非常不敏感,因为它依赖于最多出现次数最多的数字,而不是数字的实际值。

Reference

https://zh.wikipedia.org/wiki/%E5%B9%B3%E5%9D%87%E6%95%B0
https://zh.wikipedia.org/wiki/%E4%B8%AD%E4%BD%8D%E6%95%B8
https://zh.wikipedia.org/wiki/%E4%BC%97%E6%95%B0_(%E6%95%B0%E5%AD%A6)
Udacity.com