当前位置: 主页 > 学术动态 >

不平衡数据多粒度重标记欠采样算法

点击数:   更新日期: 2022-07-13

原文标题: Multi-granularity relabeled under-sampling algorithm for imbalanced data

录用期刊:Applied Soft Computing JournalJCR Q1 TOP)

原文DOIhttps://doi.org/10.1016/j.asoc.2022.109083

作者列表:

1) 代琪 (中国石油大学(北京) 信息科学与工程学院 2020级博士)

2) 刘建伟 (中国石油大学(北京) 信息科学与工程学院 自动化系)

3) 刘洋 华北理工大学 学院 智能科学与技术系)

背景与动机:

不平衡问题是数据挖掘和机器学习中重要且具有挑战性的问题之一。传统分类器的性能将受到许多数据问题的严重影响,例如类不平衡问题,类重叠和噪声。当数据集中一个类的数量比其他类多时,这样的数据集被称为类不平衡数据。Tomek-Links欠采样算法仅考虑全局互为最近邻的边界样例,忽略潜在的局部重叠样例。当少数类样例数量较少时,欠采样效果并不尽如人意,对分类模型的性能提升并不明显。因此,本文在Tomek- Link的基础上,提出一种多粒度重标记欠采样算法(MGRU)。该方法首次考虑局部重叠样例,通过构建局部粒度子空间分考虑数据集的局部信息,检测数据集中的局部潜在重叠样例。然后,根据全局重标记索引值剔除重叠的多数类样例,从而有效地扩展Tomek-Links的检测范围提升分类模型的分类性能



1 MGRU算法的结构图

1MGRU的算法结构图,第一步,通过删除部分特征,构建对应的局部多粒度子空间;第二步,通过距离映射函数,将对应样例映射到一维距离向量上,从而有利于进一步检测局部重叠样例,并重标记样例。第三步,将所有样本对应的一维重标记向量与原始数据融合,形成新的训练集增广矩阵;第四步,使用对应的重标记向量,删除重叠样例。

实验结果:



2 使用CART决策树在所有数据集上的性能



3 使用SVM决策树在所有数据集上的性能



4 使用GBDT决策树在所有数据集上的性能

当选择CART作为基分类器时,SPEauPR优于包括MGRU在内的所有类重叠欠采样方法。当我们选择SVM作为基分类器时,在更加平衡的数据集上,分类性能更优秀。另外,对于高度重叠数据集而言,MESA可能并不能准确地确定需要进行重采样的样本,导致在模型迭代过程中,SVM不能更好地获得训练数据集中的知识。GBDT而言,MGRU明显优于其他类重叠欠采样方法。同样也优于SPEMESA两种集成学习方法。

从整体结果来看,提出的方法的性能更优,能够有效地提高模型性能。在部分情况下,TLNB-TLNB-Comm并没有明显提升模型的整体分类性能,反而会因为忽略潜在重叠样本,导致分类模型的整体性能下降

论文小结:

本文通过构建局部多粒度子空间充分考虑数据集中的潜在重叠样例,提出两种新颖的MGRU-MDMGRU-SED类重叠欠采样方法。在20个高度不平衡数据集上的实验结果表明,提出的两种欠采样方法的AUCauPR优于或部分优于其他常用的或最新的重采样方法。使用MGRU方法对训练集进行预处理可以显著提高模型的分类性能。另外,根据非参数统计分析表明,MGRU-SEDMGRU-MD两种欠采样方法的性能相差不明显。当数据集中存在样例数小于特征数的情况时,将不能计算马氏距离。因此,可以优先选择MGRU-SED进行重叠欠采样。

MGRU算法的设计过程中,并没有考虑不同特征组合是否可能会挖掘出更多的潜在重叠样例。因此,未来工作进一步探讨不同特征组合的局部子空间中是否存在潜在重叠样例。与SPE集成学习方法相比,可以发现剔除多数类样例,会导致多数类样例的精度下降。因此,还可以进一步结合集成学习框架,提出多粒度局部子空间下的集成学习方法,防止删除重叠样例导致多数类分类精度降低的问题。在未来的工作中,可以进一步将该方法用于多类重叠问题,探索在多类情况下,提出方法的分类性能。

通讯作者简介:

刘建伟,博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn