数据标准化
# 特征筛选
# 1、作用
数据标准化包括去量纲化和一致化。去量纲化是指不同指标之间由于量纲不同以致于其不具可比性,故首先需将指标进行无量纲化,消除量纲影响后再进行接下来的分析。例如,某个变量的数值在1-10之间,而另一个变量的数值范围在100-1000之间,此时若进行综合评价,从数值的角度,很有可能数值变化范围大的变量,它的绝对作用就会较大,所占的比重较大。一致性是指将指标作用方向一致化,例如我们在评价多个不同指标的作用时,正向指标是数值越大越好,负向指标是数值越小越好,如果同时评价这两类指标的综合作用,由于他们的作用方向不同,不能将指标作用直接相加,此时我们就需要对逆指标进行一致化处理。
# 2、输入输出描述
输入:一项或以上定量变量。
输出:新生成标准化后的变量。
# 3、案例示例
案例:现有某个年级关于各个班级的平均分以及优秀率、挂科率。仔细观察数据,文化平均分和体育平均分它们的数据量纲不一样,文化科的总分是100,体育的总分是50,如果我们不做数据标准化,那么肯定是文化科更能影响综合评价结果(因为文化课的值更大),所以需要对数据进行标准化处理。另外,去评价一个班级的综合水平,我们期望平均分、优秀率越高越好,挂科率越小越好,这就需要我们去对平均分、优秀率指标做正向指标处理,对挂科率做负向指标处理。
# 4、案例数据
数据标准化案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【数据标准化】;
Step5:查看对应的数据数据格式,【数据标准化】要求变量为定量变量,且至少有一项;
Step6:确认参数,有多种数据标准的方法可选择;
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
现同时有正向指标和负向指标,那需要同一量纲且一致化,就需要选择正向指标处理和负向指标处理,正向指标处理事实上就是普通的归一化处理,把数据的值转换到0-1范围内,原本值越大越接近1。
负向指标处理是负向归一化处理,把把数据的值转换到0-1范围内,原本值越小越接近1。
# 7、注意事项
- 数据标准化不支持对存在空值的变量进行处理,需要提前处理空值。
- 当指标中既存在正向指标又存在负向指标的时候,为了统一处理公式,最好只使用正向指标处理-负向指标处理。
# 8、模型理论
(1)min-max标准化
(2)z-score标准化 (3)归一化(4)中心化
(5)正项指标处理(6)负向指标处理
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.