数据编码
# 数据编码
# 1、作用
将变量数值再次进行编码,可进一步浓缩或整合原始数据。按分组替换原始数据,同时为分组数据打上标签,如将年龄(定量变量,数值)编码年龄段(定类变量,如少年、青年、中年等),SPSSPRO提供了三种形式的编码方式,分别是新编码、范围编码和自动分组,其中:
新编码:若数据为文本类型,SPSSPRO默认文本类数据会按列编码为
范围编码:将原始数据编码或默认文本类数据编码按数字范围进行设置新编码,编码范围不允许重复;
自动分组:将数值数值按照均值、二分位数、四分位数进行分组。
# 2、输入输出描述
输入:一项定量变量。
输出:对变量每个值进行重新编码。
# 3、案例示例
案例:示例,对于数据编码,有几个应用场景
1、首先对于量表题,可以进行反向编码,比如说存在正向题,反向题。
2、对于有序定类变量。
3、对变量进行定制化的分组。
分别介绍这三种编码情况。
# 4、案例数据
数据编码案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【数据编码】;
Step5:查看对应的数据数据格式,【数据编码】要求变量为一项定量或定类变量;
Step6:确认参数,有多种编码方式可选择;
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
对于数据编码,有几个应用场景
(1)首先对于量表题,可以进行反向编码,比如说存在正向题,反向题。
(2)对于有序定类变量。
当我们上传到一个定类变量的时候,对于其中的分类水平是随机编码的,比如说原本随机编码为无效[2]、有效[1]、痊愈[3],这不符合自定义的有序,我们需要将其修改为无效[1]、有效[2]、痊愈[3]
修改后可以在有序逻辑回归和Ridth分析中使用。
(3)对变量进行定制化的分组。
若是原本是5集量表题,我想将它重新整合成三级量表结果,比如说把回答为1或2的整合成一级(编码为1),回答为3的为一级(编码为2),回答为4或5的整合成一级(编码为3)。
也可以采用自动分组的方式去对数值进行分组。
# 7、注意事项
- 对于范围编码和自动分组编码,需要利用到数值信息进行分组,所以它们二者支持对定量变量进行分组,若是对于分类变量,是利用它们的编码来进行分组。
# 8、模型理论
(1)新编码:若数据为文本类型,SPSSPRO默认文本类数据会按列编码为
- 比如说量表题存在五个选项、非常同意、同意、无所谓、不同意、非常不同意五个选项,分别编码为5、4、3、2、1。对于反向题,我们需要重新进行编码,将5->1,4->2,3->3,2->4,1->5。
(2)范围编码:将原始数据编码或默认文本类数据编码按数字范围进行设置新编码,编码范围不允许重复; - 比如说若是原本是5集量表题,我想将它重新整合成三级量表结果,就可以把回答为1或2的整合成一级(编码为1),回答为3的为一级(编码为2),回答为4或5的整合成一级(编码为3)
(3)自动分组:将数值数值按照均值、二分位数、四分位数进行分组。
- 均值 2 组:将数值按照平均值进行分割,低于平均值为一组,高于平均值为一组;
- 二分位数 2 组:将数值按照从小到大分、按照 50%的比例分为两组;
- 27%、73%分位数 3 组:将数值按照从小到大分、按照 27%、27%-73%、73%-100%分为三组;
- 四分位数 4 组:将数值按照从小到大分、按照 25%、25%-50%、50%-75%、75%-100%分为四组。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.