第3章数据分布特征的描述

发布 2019-06-08 17:30:17 阅读 4407

本章的主要目的:

掌握反映数据分布特征的中心、变化程度、位置等测度的工具;

会基本的考察性数据分析eda报告。

集中趋势是指一组数据向某一中心值靠拢的倾向,也就是寻找数据一般水平的代表值或中心值。如平均数、众数、中位数等。

1. 众数mode

众数是一组数据**现次数最多的变量值。是具有明显集中趋势的数值,一组数据分布的最高点所对应的数值即为众数。

既可用于定量数据,也可以用于定性数据。

可以有多个众数;也可以没有众数。图3-1。

对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系。

首先要找出频数最多的组,即为众数组,然后按相关公式计算之。图3-2。

实例3-1。

众数是一个位置代表值,不受数据中极端值的影响。其统计思想是:在一组数据的中心点附近,变量值出现的频数最高,根据众数组及相邻两组的频数分布,确定中心点的位置。

2. 中位数median

中位数是一组数据按大小排序后,处于正中间位置上的变量值。

中位数将全部数据分为两部分,一部分比它大,另一部分比它小。

也是一个位置代表值,中位数据位置=(n+1)/2。

对于组距分组数据,要先根据位置确定中位数所在组,再按公式计算。

实例3-2。

中位数大小也不受极端值影响。

3. 平均数mean

平均是指全部数据的算术平均。

总体平均数和样本平均数。

分组数据平均数的计算。以各组的组中值为代表。例3-3。加权平均数。

平均数是一个极为重要的统计变量,它是一组数据的重心所在,是数据误差相互抵消后的结果。

各变量值与其平均数的离差之和为0。

各变量值与其平均数的离差平方和最小。

平均数对每一个数值都很敏感。

4. 几何平均数 arithmetic mean

主要用于计算比率或速度的平均。例3-4。

5. 中列数 midrange

中列数是指原始数据集中最大值和最小值的平均。

6. 众数、中位数和平均数的比较。

图3-3。当数据呈对称分布或接近对称分布时,****值相等或相近,此时选择平均数作为数据集中趋势的代表值,因为其代表了全部数据的信息且易被人理解。

当数据为偏态分布时,且偏斜程度较高时,应选择众数或中位数等位置代表值。

平均数只适用于定量数据。而众数和中位数还可以适用于定性数据。

课堂练习一:顾客在银行a(在那里所有顾客都进入一个等待行列)和银行b(在那里顾客在三个办事员窗口处列队三排等待)的等待时间(分钟)分别:

银行a:6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7

银行b:4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0

从集中趋势测度能否看出二者的区别?

上面的练习告诉我们什么?银行为什么要让顾客在一个等待行列中等待?从集中趋势测度我们没发现什么区别,顾客只是希望等待时间更加稳定,变化少一些!

数据的离散程度就是用来测度变化的,是数据分布特征的又一个极为重要的特征,它反映的是各变量值远离中心值的程度,离中趋势。

1. 极差。

全距。是一组数据的最大值和最小值的差。计算简单;只利用了数据两端的信息,不能反应中间数据的分散状况。

2. 方差和标准差。

方差是各变量与其平均值离差平方的平均数。总体与样本的计算方式不同。

a. 总体方差和标准差。

分组数据和未分组数据计算的不同。

标准差是有量纲的,与变量值的计量单位相同。

实际计算可以采取较简要的公式。

b. 样本方差和标准差。

样本方差的计算是用样本数据个数或总频数减1去除离差平方和。n-1称为自由度。例3-5。

课堂练习二:分别计算两个银行中顾客等待时间的标准差。

3. 标准化值z

消除量纲的影响,是指一个已知值超过或低于平均数多少个标准差的个数。也给出了一组数据中各数值的相对位置。

课堂练习三:美国nba的m. jordan身高78英寸,而wnba的身高76英寸。

很明显,jordan高2英寸,但谁相对来说更高一些?jordan在男性中的身高是否超过了lobo在女性中的身高?男性身高的平均数是69.

0英寸,标准差为2.8英寸;女性身高平均63.6英寸,标准差2.

5。解答]要比较他们相对于男性和女性总体的身高,我们需要通过将这些身高值转化为z值来将它们标准化。jordan:z=3.21;lobo:z=4.96。

jordan的身高高于平均数3.21个标准差,而lobo的身高高于平均数4.96个标准差,这是一个很大的数。lobo在女性中的身高要高于jordan在男性中的身高。

4. 离散系数。

是一组数据的标准差与其对应的均值之比。

消除变量值水平高低和量纲的影响。

离散系数越大的说明该组数据的离散程度越大,否则越小。例3-6

5. 解释和理解标准差。

标准差度量的是数据之间的变化。紧凑的数据将会产生一个小的标准差,而比较分散的数据将会产生一个较大的标准差。

实例:邮件的稳定性。

这里介绍三种不同的理解标准差数值的方法。

全距经验法则。

基本原理是对许多数值来说,样本值的大部分(如95%)位于平均数的2个标准差的范围内。估计 s = 全距/4。

如果标准差s已知,我们就可以粗略估计样本最大和最小的“通常”值。

最小通常值 = 平均数 – 2s

最大通常值 = 平均数 + 2s

正常值:-2≤z≤2

异常值:z<-2或z>2

课堂练习四:在第二章有男性的身高数据,其平均数为69.0英寸,标准差为2.8英寸。使用全距经验法则来计算通常的最高与最矮身高。

最小值=69.0-2*2.8=63.4英寸。

最大值=69.0+2*2.8=74.6英寸。

基于这个结果,我们预料典型的男性身高将在63.4—74.6英寸这个范围内。一些男性的身高没有落在这两个界限内,那些人是异乎寻常的高或矮。

钟形分布的数据的经验规则(68-95-99.7)

所有数据中,大约有68%的数据落在平均数一个标准差的范围内。

所有数据中,大约有95%的数据落在平均数二个标准差的范围内。

所有数据中,大约有99.7%的数据落在平均数三个标准差的范围内。

切比雪夫定理。

任意一个数据集中,位于其平均数k(k>1)个标准差范围内的比例(或部分)总是至少为1-1/k2,对于k=2或3有。

所有数据中,大约有75%的数据落在平均数二个标准差的范围内。

所有数据中,大约有89%的数据落在平均数三个标准差的范围内。

这一节学完之后,我们应该理解标准差是数值之间变异程度的一种度量。你应该认识到,对于典型的数据,一个数值和平均数的差额超过2或3个标准差是很少见的事情。

几个实例:方差和标准差计算。我们知道,方差与标准差越大,意味着数据的分散程度越大;相反,方差与标准差越小,则意味着数据的分散程度越小,也即向平均值的集中程度越高。

下表是1996年日本14家电器公司的销售额**口额所占的比重,求其方差s2和标准差s。

工作表: x=420/14=30

s2=2783/(14-1)=214

s=14.6

变动系数。在比较不同的数据组a和b的变动系数时,如果a的系数较大,说明a与b相比,数据的分散程度更大。下表是日本、德国、法国按美元表示的汇率变化情况,计算各国汇率的变动系数cv,并对结果进行比较。

日本cv=15.88/112.62=0.1410=14.10%

德国cv=0.1238/1.573=0.0787=7.87%

法国cv=0.3999/5.381=0.0743=7.43%

标准化值用来测算某个数据的数值与算术平均值的偏离程度,是标准差的多少倍。借此可以看出该数据在全体数据中所处的位置。

经济系的小王,在期末考试中,宏观经济学得82分,微观经济学是69分。宏观经济学的平衡成绩是72分,标准差是8,微观经济学的平均成绩是61分,标准差是5。计算标准化值,并回答小王的宏观经济学和微观经济学哪一个更好?

宏观经济学z=(82-72)/8=1.25

微观经济学z=(69-61)/5=1.60

微观经济学成绩更好。

前面说过众数、中位数和z是三个位置代表值。这里再介绍几个基本工具。

四分位数、十分位数和百分位数。

就像中位数把数据分成两个相等的部分一样,三个四分位数,用q1、q2和q3来表示,将排序数据分为4个相等的部分。

有9个十分位数,用d1,d2,d3,d4,d5,d6,d7,d8,d9来表示,它们将数据分为10组,每一组大约有10%的数据。百分位数有99个,表示为p1,p2,…,p99,它们将数据分为100个组,每个组中大约有1%数据。

实例一:表中列出了36罐普通可口可乐中饮料的重量(以磅计)。计算相对于重量0.8143磅的百分位。

0.8143前面有8 个数据,因此它的百分位数是(8/36)×100=22。