类不平衡分类问题是一种常见且具有挑战性的问题。尽管过采样方法能够通过生成小类样本的方式缓解该问题对传统分类算法的困扰,但是现有过采样方法因生成样本时参考样本的选取不当而导致分类问题更加复杂。为了克服这一缺点,我们首先根据小类样本出现在特征空间中重叠区域的可能性,设计出了一种新的样本分组方案。并且,基于该方案我们提出了一种新的过采样方法。该方法所生成的新样本不仅能避免原分类问题的复杂化,而且能够对正确校正决策边界起到积极作用。最后,针对类不平衡数据,我们构建了一种新的分类算法。大量实验表明,所得算法在三种性能指标上均优于其它17 种对比算法,其中在高不平衡率的数据集上优势更为明显。
本工作的计算得到了西安电子科技大学高性能计算中心的支持,并已发表于Pattern Recognition (中科院一区)。
文章链接:
https://www.sciencedirect.com/science/article/pii/S0031320322004721