当前位置：主页 > 学术动态 >

三系杂交的类不平衡正样例增强

点击数: 更新日期: 2022-11-29

中文题目：三系杂交的类不平衡正样例增强

论文题目：Class-imbalanced Positive Instances Augmentation via Three-line Hybrid

录用期刊/会议：Knowledge-based Systems ( JCR Q1 TOP)

原文DOI：https://doi.org/10.1016/j.knosys.2022.109902

录用时间：2022年9月13日

作者列表：

1）代琪（中国石油大学（北京）信息科学与工程学院 2020级博士）

2）刘建伟（中国石油大学（北京）信息科学与工程学院自动化系）

3）杨佳鹏（华北理工大学理学院智能科学与技术系）

背景与动机：

类不平衡问题是工业领域和学术领域的重点研究问题之一。数据预处理技术是独立于分类器的数据层面技术。很多研究表明，这类技术能够与不同的分类器结合使用，具有很强的泛化能力。传统过采样技术，仅仅使用正样例进行增强，并没有使用任何负类信息。当正样例数量过少时，很容易造成正样例过度聚集，使分类器出现过拟合。Mixup方法是一种用于图像增强的混合增强算法。他们使用简单的混合方式，实现两类样本的混合，有利于提升图像识别的准确率。该算法在图像识别领域广泛使用。受Mixup图像增强算法和三系杂交水稻繁育过程的启发，提出一种新的启发式算法，称为三系杂交的正样例增强技术(THPIA)。THPIA技术能够有效地利用负样例信息，从而提升增强的正样例的多样性。此外，使用距离约束控制正样例的增强范围，防止在负类区域生成噪声样本，降低分类器性能不增反降的风险。

模型结构：

图1 THPIA的计算流程图

THPIA的计算过程分为三个阶段，第一阶段：杂交合成无标签样本，第二阶段：正样例与无标签样本杂交及子代选择，第三阶段：获得增强后的训练集。THPIA的流程图如图1所示。需要注意的是，图1中的圆圈表示每个样本的特征，红色箭头指向的位置是假设发生交叉或变异的特征，在实际模型中，使用随机选择样本的特征。蓝色的线条表示在第一阶段合成无标签样本的过程，而深色线条表示的外部循环为第二阶段合成最终伪正样例的过程。

实验结果及分析

为了进一步说明我们算法的有效性，我们使用AUC、G-mean和F1-Score三种评估度量，评价THPIA与其他先进过采样方法之间的性能差异。以十折交叉验证的测试集均值作为模型的最终得分。在实验中，使用MLP、SVM、CART和5NN四种分类器，在20个公开数据集上验证数据增强方法的有效性。此外，使用SMOTE、ROSE、SSO、MWMOTE、CDSMOTE、SMOTE-IPF和SMOTE-LOF七种先进的正样例增强技术作为对比增强方法。只给出MLP和SVM两种分类器的结果，表1为MLP的实验结果，表2为SVM的实验结果。

表1 在所有数据集上使用MLP得分

表1 在所有数据集上使用SVM得分

在20个公开数据集上的实验结果表明，提出的THPIA增强算法能够有效地提升模型对未知样本的识别能力。与CDSMOTE等先进的重采样技术相比，THPIA的性能更加优秀，且具有很强的竞争力。但是，当选择F1-Socre作为评估度量时，THPIA的性能并不理想，其性能与其他重采样技术相当。根据实验结果可以看出，对于高度不平衡数据集而言，单纯使用正样例信息合成伪样本，虽然在一定程度上能够提升模型的分类性能，但是，他们合成的伪正样例过度集中，很容易引起过拟合问题。因此，THPIA能够使用负样例信息，能够避免合成的正样例过度集中，并能有效地提升合成样本的多样性。

论文小结

THPIA正样例增强算法，能够有效地利用负样例的信息，从而进一步提升合成的伪正样例的多样性，提升分类模型的分类性能。实验结果表明，对于MLP而言，THPIA的性能明显优于其他重采样技术，这个假设在非参数检验过程中得到证实。在AUC度量下，当选择SVM作为基分类器时，THPIA与MWMOTE的性能相当。根据实验结果，我们可以发现，THPIA是一次非常有意义的尝试，当正类样本数量较少时，可以在约束条件下，适当引入负类信息是一种避免过拟合的可行方法。此外，与Mixup算法一样，THPIA的计算复杂度很低，且易于实现，能够使决策边界从一个类到另一个类线性转变，进一步提升模型识别少数类的识别精度。

关于通讯作者

刘建伟，副教授，博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员，中国人工智能学会机器学习分会高级会员。在计算机学报，自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇，其中三大检索150多篇。联系方式：liujw@cup.edu.cn