样本均衡
# 样本均衡
# 1、作用
进行分类任务时,如果因变量不同类别的样本数量不均衡时,会严重影响模型训练。比如说对于一个二分类问题,某一类别有995个数据,另一类别有5个数据时,此时属于严重的数据样本分布不均衡,很难从中提取规律,所以当发现样本不均衡时,需要做样本均衡处理,增加样本量较少的类别样本或减少样本量较多的类别样本,从而使得因变量不同类别的样本数量相差不大。
# 2、输入输出描述
输入:至少两项定量变量。
输出:增加样本量较少的类别样本或减少样本量较多的类别样本。
# 3、案例示例
案例:假设某数据集的因变量存在样本不均衡情况,通过数据处理-样本均衡,从而使得数据变得均衡。
# 4、案例数据
样本均衡案例数据
# 5、案例操作
Step1:在“数据处理”模块新建处理;
Step2:上传文件;
Step3:选择对应数据打开后进行预览,确认无误后点击开始处理;
Step4:选择【样本均衡】;
Step5:查看对应的数据数据格式,【样本均衡】要求变量为定量变量,且至少有一项;
Step6:确认参数,存在过采样、欠采样、组合采样这三种方式。
Step7:点击【开始处理】,完成全部操作。
# 6、输出结果分析
原始数据进行统计,可以看出,各个分类水平的样本量都是大不相同,样本不平衡,变色鸢尾的样本最多,维吉尼亚鸢尾的样本最少。
(1)选用“过采样”进行样本均衡处理后,各分类的样本结果如下:可以看出,各个分类水平的样本量都是33.333%,样本非常平衡。
(2)采用“欠采样”进行样本均衡处理后,各分类的样本结果如下:可以看出,各个分类水平的样本量都是33.333%,样本非常平衡。
(3)采用“组合采样”进行样本均衡处理后,各分类的样本结果如下:可以看出,变色鸢尾的样本有所减少、山鸢尾和维吉尼亚鸢尾的样本有所增加。
# 7、注意事项
- 样本均衡不支持对存在空值的变量进行处理,需要提前处理空值。
- 样本均衡仅支持在客户端进行下载使用。
# 8、模型理论
(1)过采样
当数据不平衡的时,比如对于一个只用0和1的二分类问题,样本标签1有995个数据,样本标签0有5个数据时,为了保持样本数目的平衡,可以选择增加或通过算法生成标签0的数据量,这个过程就叫做上采样,也叫过采样。
(2)下采样
当数据不平衡的时,比如对于一个只用0和1的二分类问题,样本标签1有995个数据,样本标签0有5个数据时,为了保持样本数目的平衡,可以选择减少或通过算法减少标签1的数据量,这个过程就叫做下采样,也叫欠采样。
(3)组合采样
结合上采样和下采样的方法,为了保持样本数目的平衡,可以选择通过算法减少或生成不均衡标签的数据量。
# 9、参考文献
[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.