样本均衡

操作视频

# 样本均衡

# 1、作用

进行分类任务时，如果因变量不同类别的样本数量不均衡时，会严重影响模型训练。比如说对于一个二分类问题，某一类别有995个数据，另一类别有5个数据时，此时属于严重的数据样本分布不均衡，很难从中提取规律，所以当发现样本不均衡时，需要做样本均衡处理，增加样本量较少的类别样本或减少样本量较多的类别样本，从而使得因变量不同类别的样本数量相差不大。

# 2、输入输出描述

输入：至少两项定量变量。
输出：增加样本量较少的类别样本或减少样本量较多的类别样本。

# 3、案例示例

案例：假设某数据集的因变量存在样本不均衡情况，通过数据处理-样本均衡，从而使得数据变得均衡。

# 4、案例数据

样本均衡案例数据

# 5、案例操作

Step1：在“数据处理”模块新建处理；
Step2：上传文件；
Step3：选择对应数据打开后进行预览，确认无误后点击开始处理；

Step4：选择【样本均衡】；
Step5：查看对应的数据数据格式，【样本均衡】要求变量为定量变量，且至少有一项；
Step6：确认参数，存在过采样、欠采样、组合采样这三种方式。
Step7：点击【开始处理】，完成全部操作。

# 6、输出结果分析

原始数据进行统计，可以看出，各个分类水平的样本量都是大不相同，样本不平衡，变色鸢尾的样本最多，维吉尼亚鸢尾的样本最少。

（1）选用“过采样”进行样本均衡处理后，各分类的样本结果如下：可以看出，各个分类水平的样本量都是33.333%，样本非常平衡。

（2）采用“欠采样”进行样本均衡处理后，各分类的样本结果如下：可以看出，各个分类水平的样本量都是33.333%，样本非常平衡。

（3）采用“组合采样”进行样本均衡处理后，各分类的样本结果如下：可以看出，变色鸢尾的样本有所减少、山鸢尾和维吉尼亚鸢尾的样本有所增加。

# 7、注意事项

样本均衡不支持对存在空值的变量进行处理，需要提前处理空值。
样本均衡仅支持在客户端进行下载使用。

# 8、模型理论

（1）过采样
当数据不平衡的时，比如对于一个只用0和1的二分类问题，样本标签1有995个数据，样本标签0有5个数据时，为了保持样本数目的平衡，可以选择增加或通过算法生成标签0的数据量，这个过程就叫做上采样，也叫过采样。

（2）下采样
当数据不平衡的时，比如对于一个只用0和1的二分类问题，样本标签1有995个数据，样本标签0有5个数据时，为了保持样本数目的平衡，可以选择减少或通过算法减少标签1的数据量，这个过程就叫做下采样，也叫欠采样。

（3）组合采样
结合上采样和下采样的方法，为了保持样本数目的平衡，可以选择通过算法减少或生成不均衡标签的数据量。

# 9、参考文献

[1] Scientific Platform Serving for Statistics Professional 2021. SPSSPRO. (Version 1.0.11)[Online Application Software]. Retrieved from https://www.spsspro.com.

建议反馈