描述性统计
# 描述性统计
# 1、作用
描述性统计分析是对调查总体所有变量的有关数据进行统计性描述,包括数据的集中趋势与离散趋势。
# 2、输入输出描述
输入:一个或多个定量变量。
输出:对总体数据的各项统计指标(字段)进行整体描述分析,包括样本量、最大值、最小值、算术平均值、中位数等统计量。
# 3、案例示例
案例:对某个学校某次期末考试成绩进行描述统计分析可以查看这次考试的平均成绩、最高分、最低分,成绩集中在哪个分数段等。
# 4、案例数据
描述性统计案例数据
一个或多个定量变量指的是:一个或多个定量变量(语文/数学/英语等定量变量),若输入多个/定量变量,对多个定量变量重复分析。# 5、案例操作
Step1:新建分析;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;
Step4:选择【描述性分析】;
Step5:查看对应的数据数据格式,【描述性分析】要求输入数据为定量变量,且至少有一项,本例拖入三个定量变量【语文】、【数学】、【英语】,这里针对这三项定量变量的输出结果进行分析。;
Step6:点击【开始分析】,完成全部操作。
# 6、输出结果分析
输出结果 1:总体描述结果 图表说明:
上表展示了描述性统计的结果,包括样本量、最大值、最小值等统计量,用于研究定量数据的整体情况。
1.分析各项统计指标,对各项统计指标进行整体描述分析。
2.对异常的或者表现得较为突出的指标进行分析,例如高方差,高平均值等等。
结果分析:分析结果该校学生数学成绩的平均值最高,语文成绩的平均值最低。
输出结果 2:散点图
图表说明:
上图以散点图的形式展示了集中趋势分析的结果,可以用来估计或预测总体。
输出结果 3:箱型图
图表说明:
上图以箱线图的形式展示了离散趋势分析的结果,离散趋势用极大值、极小值、25%分位数、中位数、75%分位数等统计指标对数据分布进行差异(稳定性)测量。
PS:极大值、极小值并非该数据的最大值、最小值,该值为箱线图的内限,即大于极大值或小于极小值的点视为异常点。
结果分析:该箱型图展示了语文成绩的数据分散结果。
# 7、注意事项
- 一般来说,描述性统计是包含针对定类数据的频数统计与针对定量数据的集中趋势分析、离散程度分析,SPSSPRO 的将针对定类数据的拆为频数分析,描述性统计专门对于定量数据进行统计描述。
# 8、模型理论
描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析(该模板 SPSSPRO 剥离为频数分析)、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。 常用的指标有平均值、中位数、四分位数、方差、标准差等等。数据的集中趋势一般采用平均值、中位数表示。数据的离散程度一般采用方差、标准差表示。
集中趋势
- 众数 Mo:数是一组数据中出现频数最多的变量值。众数也是一种位置平均数,不受极端数值的影响,在实际工作中应用较为普遍,在总体单位数较多,且具有明显的集中趋势时可以用众数表示集中趋势代表值。
- 平均数 x:这里的平均数指的是算术平均数,也叫均值,它在统计学中具有重要的地位,是集中趋势的最主要测度值。
- 中位数 Me:将一组数据按由小到大的顺序排列,居于中间位置的变量值即为中位数。中位数是位置平均数,它不受极端值的影响,在各变量值差异较大或频数分布为偏态时,中位数比算术平均数更具有代表性;在缺乏计量手段时,也可用中位数近似地代替算术平均数。
- 平均差:指各个变量值同平均数的离差绝对值的算术平均数。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
离散程度
- 最大值:一组数中的最大值。
- 最小值:一组数中的最小值。
- 极差:一组数中最大值与最小值之差。
- 方差:方差是各个变量值与其算术平均数的离差平方的算术平均数。方差的计量单位和量纲不便于从经济意义上进行解释,所以,实际统计工作中多用方差的算术平方根——标准差,来测度总体的离散程度。
- 标准差:标准差又称均方差,具有量纲,与变量值的计量单位一致。
- 25 分位:第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第 25%的数字。
- 75 分位:第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第 75%的数字。
- 四分位差(IQR):四分位差(quartile deviation),它是上四分位数(Q3,即位于 75%)与下四分位数(Q1,即位于 25%)的差。四分位差反映了中间 50%数据的离散程度,其数值越小,说明中间的数据越集中;其数值越大,说明中间的数据越分散。四分位差不受极值的影响。
- 异众比率:总体中非众数次数与总体全部次数之比。换句话说,异众比率指非众数组的频数占总频数的比例。异众比率主要适合测度分类数据的离散程度,当然,对于顺序的数据以及数值型数据也可以计算异众比率。它虽然也是一个反映离散程度的相对指标,但是与标准差系数不同。异众比率主要用于衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。
- 标准误:sem,全称 Standard Error of Mean,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度。标准误,即样本均数的标准差,是描述均数抽样分布的离散程度及衡量均数抽样误差大小的尺度,反映的是样本均数之间的变异。标准误不是标准差,是多个样本平均数的标准差。标准误用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
- 离散系数:离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
分布情况
- 峰度:峰度是分布集中趋势高峰的形状。
- 偏度:偏度是对分布偏斜方向及程度的测度。
PS:
偏度 > 0,右偏;
偏度 < 0,左偏;
偏度=0,对称。
绝对值大于 0:偏态;
绝对值大于 1:高度偏态;
绝对值0.5-1: 中等偏态。
峰度 > 3,尖峰;
峰度 = 3,正态;
峰度 < 3,扁平。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.
[2] 蔡忠建. 对描述性统计量的偏度和峰度应用的研究[J]. 北京体育大学学报, 2009, 032(003):75-76.
[3] S.伯恩斯坦, R.伯恩斯坦, 伯恩斯坦,等. 统计学原理:描述性统计学与概率.上册[M]. 科学出版社, 2002.