第3章数据分布特征的描述

本章的主要目的：

掌握反映数据分布特征的中心、变化程度、位置等测度的工具；

会基本的考察性数据分析eda报告。

集中趋势是指一组数据向某一中心值靠拢的倾向，也就是寻找数据一般水平的代表值或中心值。如平均数、众数、中位数等。

1. 众数mode

众数是一组数据**现次数最多的变量值。是具有明显集中趋势的数值，一组数据分布的最高点所对应的数值即为众数。

既可用于定量数据，也可以用于定性数据。

可以有多个众数；也可以没有众数。图3-1。

对于组距分组数据，众数的数值与其相邻两组的频数分布有一定的关系。

首先要找出频数最多的组，即为众数组，然后按相关公式计算之。图3-2。

实例3-1。

众数是一个位置代表值，不受数据中极端值的影响。其统计思想是：在一组数据的中心点附近，变量值出现的频数最高，根据众数组及相邻两组的频数分布，确定中心点的位置。

2. 中位数median

中位数是一组数据按大小排序后，处于正中间位置上的变量值。

中位数将全部数据分为两部分，一部分比它大，另一部分比它小。

也是一个位置代表值，中位数据位置=（n+1）/2。

对于组距分组数据，要先根据位置确定中位数所在组，再按公式计算。

实例3-2。

中位数大小也不受极端值影响。

3. 平均数mean

平均是指全部数据的算术平均。

总体平均数和样本平均数。

分组数据平均数的计算。以各组的组中值为代表。例3-3。加权平均数。

平均数是一个极为重要的统计变量，它是一组数据的重心所在，是数据误差相互抵消后的结果。

各变量值与其平均数的离差之和为0。

各变量值与其平均数的离差平方和最小。

平均数对每一个数值都很敏感。

4. 几何平均数 arithmetic mean

主要用于计算比率或速度的平均。例3-4。

5. 中列数 midrange

中列数是指原始数据集中最大值和最小值的平均。

6. 众数、中位数和平均数的比较。

图3-3。当数据呈对称分布或接近对称分布时，****值相等或相近，此时选择平均数作为数据集中趋势的代表值，因为其代表了全部数据的信息且易被人理解。

当数据为偏态分布时，且偏斜程度较高时，应选择众数或中位数等位置代表值。

平均数只适用于定量数据。而众数和中位数还可以适用于定性数据。

课堂练习一：顾客在银行a（在那里所有顾客都进入一个等待行列）和银行b（在那里顾客在三个办事员窗口处列队三排等待）的等待时间（分钟）分别：

银行a：6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7

银行b：4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10.0

从集中趋势测度能否看出二者的区别？

上面的练习告诉我们什么？银行为什么要让顾客在一个等待行列中等待？从集中趋势测度我们没发现什么区别，顾客只是希望等待时间更加稳定，变化少一些！

数据的离散程度就是用来测度变化的，是数据分布特征的又一个极为重要的特征，它反映的是各变量值远离中心值的程度，离中趋势。

1. 极差。

全距。是一组数据的最大值和最小值的差。计算简单；只利用了数据两端的信息，不能反应中间数据的分散状况。

2. 方差和标准差。

方差是各变量与其平均值离差平方的平均数。总体与样本的计算方式不同。

a. 总体方差和标准差。

分组数据和未分组数据计算的不同。

标准差是有量纲的，与变量值的计量单位相同。

实际计算可以采取较简要的公式。

b. 样本方差和标准差。

样本方差的计算是用样本数据个数或总频数减1去除离差平方和。n-1称为自由度。例3-5。

课堂练习二：分别计算两个银行中顾客等待时间的标准差。

3. 标准化值z

消除量纲的影响，是指一个已知值超过或低于平均数多少个标准差的个数。也给出了一组数据中各数值的相对位置。

课堂练习三：美国nba的m. jordan身高78英寸，而wnba的身高76英寸。

很明显，jordan高2英寸，但谁相对来说更高一些？jordan在男性中的身高是否超过了lobo在女性中的身高？男性身高的平均数是69.

0英寸，标准差为2.8英寸；女性身高平均63.6英寸，标准差2.

5。解答]要比较他们相对于男性和女性总体的身高，我们需要通过将这些身高值转化为z值来将它们标准化。jordan：z=3.21；lobo：z=4.96。

jordan的身高高于平均数3.21个标准差，而lobo的身高高于平均数4.96个标准差，这是一个很大的数。lobo在女性中的身高要高于jordan在男性中的身高。

4. 离散系数。

是一组数据的标准差与其对应的均值之比。

消除变量值水平高低和量纲的影响。

离散系数越大的说明该组数据的离散程度越大，否则越小。例3-6

5. 解释和理解标准差。

标准差度量的是数据之间的变化。紧凑的数据将会产生一个小的标准差，而比较分散的数据将会产生一个较大的标准差。

实例：邮件的稳定性。

这里介绍三种不同的理解标准差数值的方法。

全距经验法则。

基本原理是对许多数值来说，样本值的大部分（如95%）位于平均数的2个标准差的范围内。估计 s = 全距/4。

如果标准差s已知，我们就可以粗略估计样本最大和最小的“通常”值。

最小通常值 = 平均数 – 2s

最大通常值 = 平均数 + 2s

正常值：-2≤z≤2

异常值：z＜-2或z＞2

课堂练习四：在第二章有男性的身高数据，其平均数为69.0英寸，标准差为2.8英寸。使用全距经验法则来计算通常的最高与最矮身高。

最小值=69.0-2*2.8=63.4英寸。

最大值=69.0+2*2.8=74.6英寸。

基于这个结果，我们预料典型的男性身高将在63.4—74.6英寸这个范围内。一些男性的身高没有落在这两个界限内，那些人是异乎寻常的高或矮。

钟形分布的数据的经验规则（68-95-99.7）

所有数据中，大约有68%的数据落在平均数一个标准差的范围内。

所有数据中，大约有95%的数据落在平均数二个标准差的范围内。

所有数据中，大约有99.7%的数据落在平均数三个标准差的范围内。

切比雪夫定理。

任意一个数据集中，位于其平均数k（k＞1）个标准差范围内的比例（或部分）总是至少为1-1/k2，对于k=2或3有。

所有数据中，大约有75%的数据落在平均数二个标准差的范围内。

所有数据中，大约有89%的数据落在平均数三个标准差的范围内。

这一节学完之后，我们应该理解标准差是数值之间变异程度的一种度量。你应该认识到，对于典型的数据，一个数值和平均数的差额超过2或3个标准差是很少见的事情。

几个实例：方差和标准差计算。我们知道，方差与标准差越大，意味着数据的分散程度越大；相反，方差与标准差越小，则意味着数据的分散程度越小，也即向平均值的集中程度越高。

下表是1996年日本14家电器公司的销售额**口额所占的比重，求其方差s2和标准差s。

工作表： x=420/14=30

s2=2783/(14-1)=214

s=14.6

变动系数。在比较不同的数据组a和b的变动系数时，如果a的系数较大，说明a与b相比，数据的分散程度更大。下表是日本、德国、法国按美元表示的汇率变化情况，计算各国汇率的变动系数cv，并对结果进行比较。

日本cv=15.88/112.62=0.1410=14.10%

德国cv=0.1238/1.573=0.0787=7.87%

法国cv=0.3999/5.381=0.0743=7.43%

标准化值用来测算某个数据的数值与算术平均值的偏离程度，是标准差的多少倍。借此可以看出该数据在全体数据中所处的位置。

经济系的小王，在期末考试中，宏观经济学得82分，微观经济学是69分。宏观经济学的平衡成绩是72分，标准差是8，微观经济学的平均成绩是61分，标准差是5。计算标准化值，并回答小王的宏观经济学和微观经济学哪一个更好？

宏观经济学z=（82-72）/8=1.25

微观经济学z=（69-61）/5=1.60

微观经济学成绩更好。

前面说过众数、中位数和z是三个位置代表值。这里再介绍几个基本工具。

四分位数、十分位数和百分位数。

就像中位数把数据分成两个相等的部分一样，三个四分位数，用q1、q2和q3来表示，将排序数据分为4个相等的部分。

有9个十分位数，用d1，d2，d3，d4，d5，d6，d7，d8，d9来表示，它们将数据分为10组，每一组大约有10%的数据。百分位数有99个，表示为p1，p2，…，p99，它们将数据分为100个组，每个组中大约有1%数据。

实例一：表中列出了36罐普通可口可乐中饮料的重量（以磅计）。计算相对于重量0.8143磅的百分位。

0.8143前面有8 个数据，因此它的百分位数是（8/36）×100=22。

第3章数据分布特征的描述

其他用户还读了