文章快速检索     高级检索
  重庆邮电大学学报(自然科学版)  2020, Vol. 32 Issue (3): 495-502  DOI: 10.3979/j.issn.1673-825X.2020.03.020
0

引用本文 

陆万荣, 许江淳, 李玉惠. 考虑边界稀疏样本的非平衡数据处理方法[J]. 重庆邮电大学学报(自然科学版), 2020, 32(3): 495-502.   DOI: 10.3979/j.issn.1673-825X.2020.03.020.
LU Wanrong, XU Jiangchun, LI Yuhui. Unbalanced data processing method considering boundary sparse samples[J]. Journal of Chongqing University of Posts and Telecommunications (Natural Science Edition), 2020, 32(3): 495-502.   DOI: 10.3979/j.issn.1673-825X.2020.03.020.

基金项目

国家自然科学基金(61363043)

Foundation item

The National Natural Science Foundation of China(61363043)

作者简介

陆万荣(1995-),男,甘肃武威人,硕士研究生,主要研究方向为数据挖掘、机器学习。E-mail:lwr6608@163.com; 许江淳(1962-),男,云南大理人,副教授,主要研究方向为嵌入式系统开发与应用,智能控制。E-mail:jx19631018@163.com; 李玉惠(1964-),女,云南昆明人,教授,主要研究方向为模式识别与图像处理。E-mail:1484946977@qq.com

通讯作者

许江淳 jx19631018@163.com.

文章历史

收稿日期: 2019-01-03
修订日期: 2020-04-27
考虑边界稀疏样本的非平衡数据处理方法
陆万荣, 许江淳, 李玉惠     
昆明理工大学 信息工程与自动化学院,昆明 650500
摘要: 针对现有非平衡数据处理方法存在的局限性,提出一种考虑边界4稀疏样本的混合采样方法(considering boundary sparse samples-hybrid sampling,CBSS-HS)。通过计算每个样本的边界因子识别边界点,将样本空间划分为边界域和非边界域,对非边界域内的负类样本进行欠采样,而由于边界域上样本的稀疏性,对其上正类样本使用基于最大距离的合成少数类过采样技术(max distance-synthetic minority oversampling technique,MD-SMOTE)进行过采样,最大限度地保留正类样本的信息,最终达到2类样本基本平衡。将Recall, F1-value, G-mean和AUC(area under the curve)值作为评价指标,使用CBSS-HS+支持向量机(support vector machines,SVM)算法在5个不同平衡度的数据集上验证其有效性,并与其他4种组合模型的分类效果做对比。结果表明,提出的CBSS-HS算法在不同数据集上各个评价指标都有良好的表现,平均提高了4.6%。因此,该方法可以作为处理非平衡数据的一种有效手段。
关键词: 非平衡数据    混合采样    边界因子    SMOTE算法    
Unbalanced data processing method considering boundary sparse samples
LU Wanrong , XU Jiangchun , LI Yuhui     
Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, P.R. China
Abstract: Aiming at the limitations of existing unbalanced data processing methods, a hybrid sampling method considering boundary sparse samples is proposed. By calculating the boundary factor of each sample to identify the boundary points, the sample space is divided into boundary and non-boundary domains, and negative samples in the non-boundary domain are undersampled, and due to the sparsity of the samples on the boundary domain. MD-SMOTE algorithm, SMOTE based max distance, is performed for positive samples on it, which maximumly reserve the information of positive samples and ultimately achieves a basic balance between the two types of samples. The Recall, F1-value, G-mean and AUC values were used as evaluation indicators. The CBSS-HS+SVM algorithm was used to verify the validity of the datasets on five different balances, and compared with the classification model of the other four combined models. The results show that the CBSS-HS algorithm presented in this paper has a good performance on different evaluation indexes, with an average increase of 4.6%. Therefore, this method can be used as an effective means of processing unbalanced data.
Keywords: unbalanced data    mixed sampling    boundary factor    SMOTE algorithm    
0 引言

非平衡数据处理一直是数据挖掘技术中最受关注的研究点之一。非平衡数据是指在原始样本集中一类或者几类样本所占比例非常小的数据,所以非平衡数据也称为倾斜数据,通常将多数类称为负类,少数类称为正类[1-2]。实际中得到的数据集通常都具有很强的不平衡性,这些数据集中往往小类样本比大类样本更重要,蕴含着重要的信息,比如客户流失分析,只有极少数的客户会转投其他服务商,而及时阻止这小部分客户流失对于公司来说却极其重要;信贷欺诈识别中,通常非法客户数量所占总客户数量的比例很小,但是如果将非法用户误分类,将对银行等金融机构造成严重的经济损失;其他类似的应用还包括入侵检测、海面石油泄漏遥感图像分析和生物信息学等领域[3]

针对数据集样本类别不平衡问题,目前解决方法主要集中在算法层面和数据层面[4-6]。集成学习、代价敏感学习、特征选择算法和单类学习方法是常用的解决非平衡数据分类使用的算法,主要原理就是加入惩罚机制或者对数据的非平衡性进行补偿来改进传统算法,优点是保留了数据的原始分布特性,缺点是算法改进难度大,而改进后算法的使用范围较窄[7-8]。数据层面的方法就是对原始数据集D重构得到新的数据集D′,重构过程S主要分为过采样和欠采样,即:$D\xrightarrow{S}D'$。在数据层面入手不平衡数据分类问题比从算法入手更加灵活,使用范围也更广,因此,此类方法是解决不平衡问题简单而高效的方式。

过采样通过增加正类样本量来达到类间样本数量基本平衡,最简单的方法就是随机过采样,随机的复制正类样本以达到平衡,这种方法最大的缺点就是没有给新添加的样本增加任何新信息,从而造成过拟合、决策域变小等问题。针对这一问题,Chawla等在随机过采样方法的思想基础上提出了合成少数类过采样技术(synthetic minority oversampling technique,SMOTE)算法[9],该算法也是目前应用最广泛的过采样方法。基本原理是对每一个样本xi以欧式距离计算到每一个正类样本的距离得到k近邻,然后在样本xik个近邻样本的连线上进行线性插值从而人工合成新的正类样本。但是该方法并不能保证新加入的样本具有与原始数据同样的分布特性,导致正类样本分布边缘化,且计算复杂度高。其他的过采样方法还有Borderline-SMOTE算法与自适应合成抽样(adaptive synthetic samoling approach, ,ADASYN)算法等[10]。欠采样则是通过减少负类样本量来提高分类器对正类样本的分类性能。随机欠采样就是随机剔除负类样本以达到类间样本量平衡,但是剔除的负类样本中很可能包含重要的信息,致使模型的学习效果不好。在此基础上的一些欠采样改进算法有通过将负类样本划分为与正类具有同样样本量的多个子集进行集成学习的EasyEsemble算法、从负类样本中选取最具代表性样本的NearMiss算法、基于清洗类间重叠样本的Tomek Links方法等[11-13],这些改进算法尽管对分类进度有一定的提高,但是存在不能准确确定冗余样本等因素,仍然有很多重要样本被删除。

针对过采样和欠采样方法产生的过拟合和信息丢失导致分类性能不佳问题,混合采样的处理方法被一些研究人员提出。文献[14]提出SMOTE+Tomek Links混合采样算法,先利用SMOTE生成新的正类样本,得到扩充数据集T,再删除T中的Tomek Links对以达到平衡。文献[15]提出SMOTE+聚类的混合采样方法,通过聚类的数据欠采样删除SMOTE处理后新样本集中的冗余数据[14-15]。本文根据上述方法在处理数据时直接将边界区域的稀疏样本当做噪声删除造成部分正类样本信息丢失问题,提出考虑边界稀疏样本的混合采样方法(CBSS-HS)。首先通过计算得到每一个样本的边界因子,将样本分布区域划分为边界区域和非边界区域,其次在边界区域上使用改进的MD-SMOTE算法对正类样本进行过采样,在非边界区域上对负类样本欠采样,最终得到基本平衡的训练样本,最后使用SVM作为基分类器验证该算法的有效性。

1 边界点检测

使用基于k-离群度的边界点检测方法[16]识别不平衡数据集的边界区域和非边界区域。具体步骤如下。

1) 定义算法变量。近邻个数:k;邻域半径:ε;边界阈值:μ

2) 样本空间D中对象p在半径ε内的区域称为pε邻域,记作

$ \varepsilon (p) = \{ q|q{\kern 1pt} {\kern 1pt} {\kern 1pt} \in {\kern 1pt} {\kern 1pt} {\kern 1pt} D, dist (p,q) \le \varepsilon \} $ (1)

(1) 式中,dist(p, q)表示对象pq的欧氏距离。

3) 对任意正整数k,在D中对象pk-距离记作

$ k\_dist (p) = dist (p,o),o{\kern 1pt} {\kern 1pt} {\kern 1pt} \in {\kern 1pt} {\kern 1pt} {\kern 1pt} D $ (2)

且满足

① 至少有k个对象qD-{p},使得:dist(p, q)≤dist(p, o);

②至多有k-1个对象qD-{p},使得:dist(p, q) < dist(p, o)。

4) 计算空间D中对象pk-距离dist(p)与其ε-邻域内所有样本点的k-距离的平均值之比,记作k-离群度为

$ \begin{array}{*{20}{l}} {k\_od(p) = \frac{{k\_dist (p)}}{{\frac{1}{{|\varepsilon (p)|}} \cdot \sum {k\_} dist (q)}}} \end{array} $ (3)

(3) 式中,|ε(p)|表示对象pε-邻域内所有样本点的个数。

5) 计算k-离群度与1之差的绝对值,称为对象p的边界因子,记作

$ k\_bd(p) = \left| {{\kern 1pt} 1 - k\_od(p){\kern 1pt} } \right| $ (4)

通过比较k_bd(p)与边界阈值μ的大小,如果k_bd(p)>μ, 则将p为边界点,通过大量实验验证,μ的取值在[0.1, 0.4]时边界划分最理想,且μ越大边界越厚,反之越薄。

2 CBSS-HS算法

第1节通过计算边界因子已经将样本空间划分为了边界区域和非边界区域,接下来分2步对2个区域内的样本分别做处理。

2.1 SMOTE过采样及其改进算法MD-SMOTE

原始数据分布如图 1,圈外区域即为边界区域,由于该区域样本稀疏的特性故而对边界区域内样本做过采样处理。最经典的过采样方法就是合成抽样法SMOTE,基本思想是:利用正类样本控制人工样本的生成和分布,实现数据集类间平衡的目的。首先利用欧氏距离求样本xiSmink个近邻,其中Smin为正类样本空间,xi∈{1, …, T},T为正类样本个数,记作xi(near), near∈{1, …, k}; 其次从这k个近邻中随机选取一个xi,再生成一个[0, 1]之间的随机数ρ;最后利用(5)式生成新样本,重复上一步直到样本集平衡。

图 1 原始数据分布图 Fig.1 Raw data distribution map
$ {x_{i1}} = {x_i} + \rho ({x_{i(t)}} - {x_i}) $ (5)

SMOTE方法无法解决正类样本分布边缘化,且计算复杂度大,本文提出一种基于最大距离的SMOTE算法。首先,计算所有正类样本的质心点xc,然后找到距离质心点xc最远的一个正类样本点xmax_d,最后在xcxmax_d的连线上随机产生新正类样本点xnew

$ {x_{{\rm{new}}}} = {x_c} + \rho ({x_{{\rm{max}}\_d}} - {x_c}) $ (6)

MDSMOTE算法不需要对正类样本点k-近邻分组,只需考虑2个点xcxmax_d,则从SMOTE到MD-SMOTE计算复杂度从O(n2)降到了O(n)。根据公式(6)产生合适的正类新样本,算法简单易实现。

具体步骤可描述如下。

算法1   MD-SMOTE算法。

输入:边界区域正类样本Xpos,负类样本集Xneg;输出:平衡数据集Train1_data

步骤1  遍历样本集Xpos,计算质心点xc,并计算xmax_d

步骤2  按照公式(6)依次生成足够正类样本加入到Xpos组成新的正类样本集Xpos_new

步骤3  将新样本集Xpos_newXneg合并组成平衡数据集Train1_data

2.2 NearMiss处理非边界区域样本

为避免训练耗时过长,同时又能达到类间样本量平衡,采用基于最近邻(k-nearest neighbor,KNN)的NearMiss算法处理非边界区域内样本,既能满足要求又能尽可能保留负类中的样本信息。该方法按照启发式的规则大致可分为3类:NearMiss-1,NearMiss-2和NearMiss-3。NearMiss-1选择到最近的k个少数类样本平均距离最近的多数类样本;NearMiss-2则是选择最远的;NearMiss-3为了保证每个正类样本都被负类包围,对每个正类样本选择最近的k个负类样本。NearMiss-1相比于其他2种易受离群点的影响,本文选择使用NearMiss-2算法。

2.3 CBSS-HS算法描述

考虑边界稀疏样本的混合采样方法从前面几节的叙述中已经实现了CBSS-HS算法的主体框架,在保持原始数据分布特性的基础上,实现了非平衡数据集的均衡化处理,为后续通过SVM分类器学习得到良好的分类模型提供了保障。原始样本集、边界区域样本集、非边界区域样本集分别表示为DD1,D2,则有D=D1+D2。D1和D2中的正类样本和负类样本分别表示为D1positionD1negativeD2positionD2negative。这4类样本的样本量大小分别定义为:|D1position|,|D1negative|和|D2position|,|D2negative|。非边界区域使用MD-SMOTE算法对正类样本的过采样倍率定义为$N=\frac{\left| D{{1}^{\text{negative }}} \right|}{\left| D{{1}^{\text{position }}} \right|}$

CBSS-HS算法首先计算D中每个样本边界因子并与设定的边界阈值比较,划分出D1和D2区域。其次对于D1中的正类样本采用MD-SMOTE算法合成(N-1)倍正类样本,与D1的负类样本合并加入训练集;D2区域中的负类样本采用NearMiss-2算法进行剔除。最后将分别在D1和D2中得到的训练集合并组成最终加入分类器的训练样本。通过以上步骤将图 1中的非平衡数据处理后如图 2。考虑边界稀疏样本的混合采样算法详细步骤如下。

图 2 采样后分布图 Fig.2 Post-sampling distribution map

算法2   CBSS-HS算法。

输入:原始非平衡数据集D,近邻个数k,邻域半径ε,边界阈值μ

输出:处理后的平衡数据集。

步骤1  求边界因子;

在空间D中计算样本xik-距离dist(xi);

计算xik-离群度:k_od(xi);

求得边界因子k_bd(xi)=|1-k_od(xi)|。

步骤2  将k_bd(xi)>μ的样本划入简介区域D1,反之划入D2。

步骤3  对D1中的D1position样本采用MD-SMOTE合成(N-1)·|D1position|个样本,并于加入D1positionD2negative组成训练集Train1_data

步骤4  采用NearMiss算法对D2negative中的样本进行删减;

计算每一个xi到最远的k个属于D2的正类样本平均距离;

Max_dist[i]中的值从小到大进行排序,选择前|D2position|个距离对应的样本与D2position组成Train2_data

步骤5  将Train1_dataTrain2_data合并为平衡训练样本集Train_data

2.4 CBSS-HS算法时间复杂度分析

在计算边界区域时,主要计算每个样本的k-近邻距离和ε邻域,扫描一遍数据集即可完成,算法时间复杂度为O(k|D|2)。在边界域内使用MDSMOTE过采样算法,复杂度为O(|D1|)。在非边界域内使用基于KNN的NearMiss-2欠采样算法,时间复杂度为O(|D2|2)。综上可知,CBSS-HS算法的时间复杂度为O(k|D|2+t|D1|+t|D2|2),t为迭代次数。

3 实验结果与分析

为验证CBSS-HS算法处理非平衡数据的有效性,共选择5组不同平衡度的来自金融、银行、互联网和生物医学等行业的公开数据集,如表 1。运行在Windows7环境下,基于Anaconda3.0,Python3.6.0完成。

表 1 不同平衡度数据集信息 Tab.1 Different balance data set information
3.1 评价指标

分类精确率作为模型分类性能评价指标时,各类别对精确率的贡献度要差不多。若类间数量相差太多,则会造成比例大的类别主导整个精确率,而比例小的类别不论是否分类正确都对整体分类精度几乎没有影响。本文使用正类查全率、F_Value指标、G-mean值和AUC曲线作为评价模型分类性能优劣的评价指标。在二分类问题中混淆矩阵如表 2,按照混淆矩阵以上4个指标的定义分别如下。

表 2 二分类混淆矩阵 Tab.2 Two-class confusion matrix

1) 查全率Recall表示某一类中预测出的占实际的比例,可以分为正类查全率

$ RC\_p = \frac{{TP}}{{TP + FN}} $ (7)

与负类查全率

$ RC\_n = \frac{{TN}}{{TN + FP}} $ (8)

2) F-Value值是基于查全率和查准率的一种综合评价指标。正类查准率表示预测为正类的样本中实际正类所占比例,表示为

$ RC\_p = \frac{{TP}}{{TP + FP}} $ (9)

F-Value值表达式为

$ F - Value = \frac{{(1 + {\beta ^2}) \times RC\_p \times PC\_p}}{{{\beta ^2} \times R{C_p} + PC\_p}} $ (10)

(10) 式中,β表示查准率和查全率的相对重要性,取值越大分类性能越好,一般取1,此时(10)式变为

$ F1 - Value = \frac{{2 \times RC\_p \times PC\_p}}{{R{C_p} + PC\_p}} $ (11)

3) G-mean值是正类查全率和负类查全率乘积的平方根,表示为

$ G{\rm{ - }}mean = \sqrt {RC\_p \times RC\_n} $ (12)

4) AUC值即ROC(receiver operating characteristic curve)曲线下面的面积[11]。ROC曲线X轴表示假阳率(FPR),表示为

$ FPR = \frac{{FP}}{{FP + TN}} $ (13)

Y轴表示真阳率(TPR),ROC曲线越接近左上角代表模型越好,AUC值就是对ROC曲线的定量表示,越大越好。真阳率表示为

$ TPR = \frac{{TP}}{{TP + FN}} $ (14)
3.2 分类性能分析

表 1中5个数据集分别采用SMOTE+SVM,ADASYN+SVM,NearMiss-2+SVM,SMOTETomek和CBSS-HS+SVM这5种组合进行验证,且采用10折交叉验证防止随机影响。先对边界检测算法的μ进行调参,在[0.1, 0.4]内给不同的数据集设置不同的最优μ值,划分出合理的边界区域和非边界区域。接着确定最优模型超参参数,通过10折交叉验证确定SVM分类器超参并且对默认分类阈值0.5进行调试,确定对0.5进行上调可以得到更好的模型,最终得到表 3的实验数据。

表 3 不同数据集上各性能指标 Tab.3 Performance indicators on different data sets

表 3可以看出,整体上本文的算法结合SVM分类器在不同数据集上的分类性能都要优于其他的算法组合形式。将各指标中的最优值加下横线表示,Spambase数据集中本文算法的RC_p指标略低于SMOTE+SVM组合,这是因为该数据集的不平衡度相对较低,其他的各个指标在5个数据集中要么是最优值,要么是并列最优。随着不平衡度的增加,本文算法的优势也愈加明显,尤其在Creditcard数据集上。见表 1,Creditcard数据集不平衡度达到了16.19,但是其各项指标都有较大提高,分别达到了约19%,7%,11%和1%。

图 3为不同数据集上各算法的ROC曲线对比图。除Blood数据集上可能由于样本量少、特征数少的原因导致各类组合方法都表现不佳外,其它数据集上的AUC值都非常接近,且超过了90%。这是因为ROC曲线通常会呈现一个过分乐观的效果统计,由于ROC曲线有较好的鲁棒性,即使类别分布发生变化,但是ROC曲线基本不会变化。在非平衡数据分类问题中,因为正类较少但很重要,如果正类增加了,而ROC曲线却不变,那么这种鲁棒性就变得不能接受了。从图 3中也能看出本文算法并没有因为增加了划分边界域的过程,导致模型的训练时间大幅增加,证明了MD-SMOTE算法的有效性。

图 3 各数据集ROC曲线对比图 Fig.3 ROC curve comparison chart of each data set

为方便分析,引进二分类问题中流行的评价指标PR(precision-Recall)曲线。与ROC曲线相比,PR曲线完全聚焦于正类,很适合作为评价非平衡数据处理的指标。PR曲线如图 4,相较于ROC曲线下的过高AUC值,在PR曲线下AUC值产生了明显下滑,但是本文提出的CBSS-HS+SVM组合算法还是表现出了良好的分类性能。

图 4 各数据集PR曲线对比图 Fig.4 Comparison of PR curves of each data set
4 结束语

本文提出基于边界稀疏样本的混合采样方法解决不平衡数据集上的分类问题。通过引入边界因子将样本空间划分为边界区域和非边界区域,分别在这2个区域上进行过采样和欠采样,以期达到样本类别基本平衡,同时针对传统SMOTE算法计算复杂度高、易造成正类样本分布边缘化,提出一种基于最大距离的SMOTE算法MD-SMOTE。在5个不同平衡度的数据集上验证该算法的有效性,使用比较适合非平衡数据集分类性能评价指标,并与其他算法进行比较。结果表明,本文提出的CBSS-HS算法在所有数据集上性能均优于其他算法。但是从实验过程和结果中也发现了一些问题,比如在Blood这种样本少、特征少的数据集上,尽管分类性能有所提高,但是分类结果仍然比较差。本文仅对采样算法作了研究,直接使用SVM分类器,因此,接下来对分类算法的改进以及不同分类算法与CBSS-HS相结合会达到怎样的分类效果也是以后的研究方向。

参考文献
[1]
HE H, GARCIA E A. Learning from Imbalanced Data[J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263-1284. DOI:10.1109/TKDE.2008.239
[2]
YEH C W, LI D C, LIN L S, et al.A Learning Approach with Under-and Over-Sampling for Imbalanced Data Sets[C]//ⅡAI International Congress on Advanced Applied Informatics. Kumamoto, Japan: IEEE, 2016: 725-729.
[3]
尹留志.关于非平衡数据特征问题的研究[D].合肥: 中国科学技术大学, 2014.
YIN L Z. Research on the characteristics of non-equilibrium data[D]. Hefei: University of Science and Technology of China, 2014. http://cdmd.cnki.com.cn/Article/CDMD-10358-1014268873.htm
[4]
GARCIA V, SANCHEZ J S, MOLLINEDA R A. On the effectiveness of preprocessing methods when dealing with different levels of class imbalance[J]. Knowledge-Based Systems, 2012, 25(1): 13-21.
[5]
陶新民, 张冬雪, 郝思媛, 等. 基于谱聚类欠取样的不均衡数据SVM分类算法[J]. 控制与决策, 2012, 27(12): 1761-1768.
TAO X M, ZHANG D X, HAO S Y, et al. SVM classification algorithm for unbalanced data based on spectral clustering undersampling[J]. Control and Decision, 2012, 27(12): 1761-1768.
[6]
HE H B, YANG B, GARCIA E A, et al.ADASYN: Adaptive synthetic sampling approach for imbalanced learning[C]// IEEE International Joint Conference on Neural Networks. Hong Kong, China: IEEE, 2008: 1322-1328.
[7]
ZHOU B, YANG C, GUO H, et al.A quasi-linear SVM combined with assembled SMOTE for imbalanced data classification[C]//IEEE International Joint Conference on Neural Networks. Dallas, TX, USA: IEEE, 2013: 100-107.
[8]
YU H, NI J, ZHAO J. ACOSampling:An ant colony optimization-based undersampling method for classifying imbalanced DNA microarray data[J]. Neurocomputing, 2013, 101(2): 309-318.
[9]
CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic Minority Over-sampling Technique[J]. Journal of Artificial Intelligence Research, 2011, 16(1): 321-357.
[10]
EBO B K, KEUNG J, PHANNACHITTA P, et al. MAHAKIL:Diversity based Oversampling Approach to Alleviate the Class Imbalance Issue in Software Defect Prediction[J]. IEEE Transactions on Software Engineering, 2018, 44(6): 534-550. DOI:10.1109/TSE.2017.2731766
[11]
李倩倩, 刘胥影. 多类类别不平衡学习算法:EasyEnsemble.M[J]. 模式识别与人工智能, 2014, 27(2): 187-192.
LI Q Q, LIU X Y. Multi-class Category Unbalanced Learning Algorithm: EasyEnsemble.M[J]. Pattern Recognition and Artificial Intelligence, 2014, 27(2): 187-192. DOI:10.3969/j.issn.1003-6059.2014.02.014
[12]
杨杰明, 闫欣, 曲朝阳, 等. 基于数据密度分布的欠采样方法研究[J]. 计算机应用研究, 2016, 33(10): 2997-3000.
YANG J M, YAN X, QU C Y, et al. Undersampling method based on data density distribution[J]. Journal of Computer Applications, 2016, 33(10): 2997-3000. DOI:10.3969/j.issn.1001-3695.2016.10.029
[13]
LIU C, WU J, MIRADOR L, et al.Classifying DNA Methylation Imbalance Data in CancerRisk Prediction Using SMOTE and Tomek Link Methods[C]//International Conference of Pioneering Computer Scientists, Engineers and Educators. Zhengzhou, China: Springer, 2018: 1-9.
[14]
GUSTAVO E A, BATISTA P A, A.RONALDO C, et al.A Study of the Behavior of Several Methods for Balancing machine Learning Training Data[J].ACM SIGKDD Explorations Newsletter, 2004, 6(1): 20-29.
[15]
谷琼, 袁磊, 宁彬, 等. 一种基于混合重取样策略的非均衡数据集分类算法[J]. 计算机工程与科学, 2012, 34(10): 128-134.
GU Q, YUAN L, NING B, et al. A Novel Classification Algorithm for Imbalanced Datasets Based on Hybrid Resampling Strategy[J]. Computer Engineering and Science, 2012, 34(10): 128-134.
[16]
王桂芝, 李井竹, 狄志超. 支持K-离群度的边界点检测方法[J]. 计算机工程与应用, 2011, 47(33): 140-142.
WANG G Z, LI J Z, DI Z C. Boundary point detection method supporting k-outliers[J]. Computer Engineering and Applications, 2011, 47(33): 140-142. DOI:10.3778/j.issn.1002-8331.2011.33.041